So berechnen Sie die Standardabweichung einer Stichprobe. Statistische Parameter

Eines der wichtigsten Werkzeuge der statistischen Analyse ist die Berechnung der Standardabweichung. Mit diesem Indikator können Sie die Standardabweichung für eine Stichprobe oder für die Grundgesamtheit schätzen. Lassen Sie uns lernen, wie man die Standardabweichungsformel in Excel verwendet.

Lassen Sie uns sofort definieren, was die Standardabweichung ist und wie ihre Formel aussieht. Dieser Wert ist die Quadratwurzel des arithmetischen Mittels der Quadrate der Differenz zwischen allen Werten der Reihe und ihrem arithmetischen Mittel. Es gibt einen identischen Namen für diesen Indikator - Standardabweichung. Beide Namen sind völlig gleichwertig.

Aber natürlich muss der Benutzer in Excel dies nicht berechnen, da das Programm alles für ihn erledigt. Lassen Sie uns lernen, wie man die Standardabweichung in Excel berechnet.

Berechnung in Excel

Mit zwei speziellen Funktionen können Sie den angegebenen Wert in Excel berechnen STABW.B(laut Muster) und STABW.G(nach der allgemeinen Bevölkerung). Das Funktionsprinzip ist absolut gleich, aber sie können auf drei Arten aufgerufen werden, auf die wir weiter unten eingehen werden.

Methode 1: Funktionsassistent


Methode 2: Registerkarte „Formeln“.


Methode 3: Formel manuell eingeben

Es gibt auch eine Möglichkeit, das Argumentfenster überhaupt nicht aufzurufen. Geben Sie dazu die Formel manuell ein.


Wie Sie sehen können, ist der Mechanismus zur Berechnung der Standardabweichung in Excel sehr einfach. Der Benutzer muss nur Zahlen aus der Bevölkerung oder Links zu Zellen eingeben, die diese enthalten. Alle Berechnungen werden vom Programm selbst durchgeführt. Es ist viel schwieriger zu verstehen, was der berechnete Indikator ist und wie die Ergebnisse der Berechnung in der Praxis angewendet werden können. Aber das zu verstehen, gehört schon eher in den Bereich der Statistik als zum Erlernen des Umgangs mit Software.

Aus Wikipedia, der freien Enzyklopädie

Standardabweichung(Synonyme: Standardabweichung, Standardabweichung, Standardabweichung; verwandte Begriffe: Standardabweichung, Standardverbreitung) - in der Wahrscheinlichkeitstheorie und Statistik der häufigste Indikator für die Streuung der Werte einer Zufallsvariablen relativ zu ihrer mathematischen Erwartung. Bei begrenzten Arrays von Stichproben von Werten wird anstelle der mathematischen Erwartung das arithmetische Mittel der Grundgesamtheit von Stichproben verwendet.

Grundinformation

Die Standardabweichung wird in Einheiten der Zufallsvariablen selbst gemessen und bei der Berechnung des Standardfehlers des arithmetischen Mittels, bei der Konstruktion von Konfidenzintervallen, bei der statistischen Überprüfung von Hypothesen und bei der Messung einer linearen Beziehung zwischen Zufallsvariablen verwendet. Definiert als die Quadratwurzel der Varianz einer Zufallsvariablen.

Standardabweichung:

\sigma=\sqrt(\frac(1)(n)\sum_(i=1)^n\left(x_i-\bar(x)\right)^2).

Standardabweichung(Schätzung der Standardabweichung einer Zufallsvariablen x relativ zu seiner mathematischen Erwartung basierend auf einer unverzerrten Schätzung seiner Varianz) s:

s=\sqrt(\frac(n)(n-1)\sigma^2)=\sqrt(\frac(1)(n-1)\sum_(i=1)^n\left(x_i-\bar (x)\rechts)^2);

Drei-Sigma-Regel

Drei-Sigma-Regel (3\sigma) - fast alle Werte einer normalverteilten Zufallsvariablen liegen im Intervall \left(\bar(x)-3\sigma;\bar(x)+3\sigma\right). Genauer gesagt - ungefähr mit einer Wahrscheinlichkeit von 0,9973 liegt der Wert einer normalverteilten Zufallsvariablen im angegebenen Intervall (vorausgesetzt, der Wert \bar(x) wahr und nicht als Ergebnis der Verarbeitung der Probe erhalten).

Wenn der wahre Wert \bar(x) unbekannt, dann sollten Sie verwenden \sigma, a s. Somit wird die Drei-Sigma-Regel in die Drei-Regel umgewandelt s .

Interpretation des Werts der Standardabweichung

Ein größerer Wert der Standardabweichung zeigt eine größere Streuung der Werte in der präsentierten Menge mit dem Mittelwert der Menge an; ein niedrigerer Wert zeigt jeweils an, dass die Werte in der Menge um den Mittelwert herum gruppiert sind.

Zum Beispiel haben wir drei Zahlensätze: (0, 0, 14, 14), (0, 6, 8, 14) und (6, 6, 8, 8). Alle drei Sätze haben Mittelwerte von 7 und Standardabweichungen von 7, 5 bzw. 1. Der letzte Satz hat eine kleine Standardabweichung, weil die Werte im Satz um den Mittelwert gruppiert sind; der erste Satz hat den größten Wert der Standardabweichung – die Werte innerhalb des Satzes weichen stark vom Mittelwert ab.

Allgemein kann die Standardabweichung als Unsicherheitsmaß angesehen werden. Beispielsweise wird in der Physik die Standardabweichung verwendet, um den Fehler einer Reihe aufeinanderfolgender Messungen einer bestimmten Größe zu bestimmen. Dieser Wert ist sehr wichtig, um die Plausibilität des untersuchten Phänomens im Vergleich zu dem von der Theorie vorhergesagten Wert zu bestimmen: Wenn der Mittelwert der Messungen stark von den von der Theorie vorhergesagten Werten abweicht (große Standardabweichung), dann die Die erhaltenen Werte oder die Methode zu deren Gewinnung sollten erneut überprüft werden.

Praktischer Nutzen

In der Praxis lässt sich anhand der Standardabweichung abschätzen, wie stark Werte aus einer Menge vom Durchschnittswert abweichen können.

Wirtschaft und Finanzen

Standardabweichung der Portfoliorendite \sigma=\sqrt(D[X]) wird mit Portfoliorisiko identifiziert.

Klima

Angenommen, es gibt zwei Städte mit der gleichen durchschnittlichen Tageshöchsttemperatur, aber eine liegt an der Küste und die andere in der Ebene. Es ist bekannt, dass Küstenstädte viele verschiedene Tageshöchsttemperaturen haben, die niedriger sind als Städte im Landesinneren. Daher ist die Standardabweichung der maximalen Tagestemperaturen in der Küstenstadt geringer als in der zweiten Stadt, obwohl der Durchschnittswert dieses Werts für sie gleich ist, was in der Praxis bedeutet, dass die Wahrscheinlichkeit, dass die maximale Luft Die Temperatur jedes einzelnen Tages des Jahres wird stärker vom Durchschnittswert abweichen, höher für eine Stadt innerhalb des Kontinents.

Sport

Nehmen wir an, dass es mehrere Fußballmannschaften gibt, die nach bestimmten Parametern eingestuft werden, z. B. Anzahl der erzielten und kassierten Tore, Torchancen usw. Es ist sehr wahrscheinlich, dass die beste Mannschaft in dieser Gruppe die beste hat Werte in mehr Parametern. Je kleiner die Standardabweichung des Teams für jeden der dargestellten Parameter ist, desto vorhersehbarer ist das Ergebnis des Teams, solche Teams sind ausgeglichen. Andererseits hat ein Team mit einer großen Standardabweichung Schwierigkeiten, das Ergebnis vorherzusagen, was wiederum durch ein Ungleichgewicht erklärt wird, beispielsweise eine starke Verteidigung, aber ein schwacher Angriff.

Die Verwendung der Standardabweichung der Parameter des Teams ermöglicht es, das Ergebnis des Spiels zwischen zwei Teams bis zu einem gewissen Grad vorherzusagen, die Stärken und Schwächen der Teams und damit die gewählten Kampfmethoden zu bewerten.

siehe auch

Schreiben Sie eine Rezension zum Artikel "Standardabweichung"

Literatur

  • Borovikov V. STATISTIKEN. Die Kunst der Computerdatenanalyse: Für Profis / V. Borovikov. - St. Petersburg. : Peter, 2003. - 688 S. -ISBN 5-272-00078-1..

Ein Ausschnitt, der die Standardabweichung charakterisiert

Und er öffnete schnell die Tür und trat mit entschlossenen Schritten auf den Balkon hinaus. Das Gespräch verstummte plötzlich, Hüte und Mützen wurden abgenommen, und alle Augen richteten sich auf den Grafen, der herauskam.
- Hallo Leute! sagte der Graf schnell und laut. - Danke fürs Kommen. Ich komme jetzt zu Ihnen, aber zuerst müssen wir uns um den Bösewicht kümmern. Wir müssen den Bösewicht bestrafen, der Moskau getötet hat. Warte auf mich! - Und der Graf kehrte ebenso schnell in die Kammern zurück und knallte die Tür hart zu.
Ein zustimmendes Gemurmel ging durch die Menge. „Dann wird er den Gebrauch der Schurken kontrollieren! Und Sie sagen, ein Franzose ... er wird die ganze Strecke für Sie lösen! sagten die Leute, als wollten sie sich gegenseitig ihren mangelnden Glauben vorwerfen.
Ein paar Minuten später eilte ein Offizier aus der Haustür, bestellte etwas, und die Dragoner streckten sich aus. Die Menge bewegte sich gierig vom Balkon auf die Veranda. Rostopchin trat mit zornigen, schnellen Schritten auf die Veranda und sah sich hastig um, als suche er jemanden.
- Wo ist er? - sagte der Graf, und im selben Moment, als er dies sagte, sah er um die Ecke des Hauses zwischen zwei Dragonern einen jungen Mann mit einem langen, dünnen Hals herauskommen, dessen Kopf halb rasiert und überwuchert war. Dieser junge Mann trug einen ehemals adretten, blau gekleideten, schäbigen Fuchsschaffellmantel und eine schmutzige Sträflingshose aus Leinen, die in schmutzige, abgetragene dünne Stiefel gestopft war. Fesseln hingen schwer an dünnen, schwachen Beinen und erschwerten den zögernden Gang des jungen Mannes.
- SONDERN! - sagte Rostopchin, wandte hastig den Blick von dem jungen Mann im Fuchsmantel ab und deutete auf die unterste Stufe der Veranda. - Stell es hierhin! - Der junge Mann, der seine Fesseln anlegte, trat schwer auf die angegebene Stufe, hielt den drückenden Kragen des Schaffellmantels mit dem Finger fest, drehte zweimal seinen langen Hals und faltete seufzend seine dünnen, arbeitslosen Hände vor seinem Bauch mit unterwürfiger Geste.
Ein paar Sekunden lang herrschte Stille, als der junge Mann sich auf die Stufe setzte. Nur in den hinteren Reihen von Menschen, die sich an einen Ort drängten, war Stöhnen, Stöhnen, Stöße und das Klappern neu angeordneter Beine zu hören.
Rostopchin, der darauf wartete, dass er an der angegebenen Stelle anhielt, rieb sich stirnrunzelnd mit der Hand das Gesicht.
- Leute! - sagte Rostopchin mit metallischer Stimme, - dieser Mann, Wereshchagin, ist derselbe Schurke, an dem Moskau gestorben ist.
Der junge Mann im Fuchsmantel stand in devoter Pose, die Hände vor dem Bauch gefaltet und leicht vorgebeugt. Abgemagert, mit hoffnungslosem Ausdruck, entstellt durch einen rasierten Kopf, war sein junges Gesicht gesenkt. Bei den ersten Worten des Grafen hob er langsam den Kopf und blickte auf den Grafen hinab, als wolle er ihm etwas sagen oder zumindest seinem Blick begegnen. Aber Rostopchin sah ihn nicht an. Am langen, dünnen Hals des jungen Mannes spannte sich wie ein Seil eine Ader hinter dem Ohr und wurde blau, und plötzlich wurde sein Gesicht rot.
Alle Augen waren auf ihn gerichtet. Er blickte auf die Menge, und wie beruhigt durch den Ausdruck, den er auf den Gesichtern der Menschen las, lächelte er traurig und schüchtern, senkte wieder den Kopf und stellte die Füße auf die Stufe.
„Er hat seinen Zaren und sein Vaterland verraten, er hat sich Bonaparte ausgeliefert, er allein von allen Russen hat den Namen eines Russen entehrt, und Moskau stirbt an ihm“, sagte Rastopchin mit gleichmäßiger, scharfer Stimme; aber plötzlich blickte er schnell auf Vereshchagin hinab, der weiterhin in derselben unterwürfigen Pose dastand. Als ob dieser Blick ihn in die Luft jagte, schrie er fast, indem er seine Hand hob und sich an die Menschen wandte: - Behandeln Sie ihn mit Ihrem Urteil! Ich gebe es dir!
Die Menschen schwiegen und drängten sich nur immer stärker aneinander. Sich gegenseitig halten, diese infizierte Nähe einatmen, keine Kraft haben sich zu bewegen und auf etwas Unbekanntes, Unbegreifliches und Schreckliches zu warten wurde unerträglich. Die Menschen in den vorderen Reihen, die alles sahen und hörten, was vor ihnen geschah, alle mit erschrocken weit geöffneten Augen und aufgerissenen Mündern, hielten sich mit aller Kraft den Druck der hinteren auf dem Rücken.
- Schlag ihn!.. Lass den Verräter sterben und beschäme nicht den Namen des Russen! schrie Rastopchin. - Rubin! Ich bestelle! - Die Menge hörte keine Worte, sondern die wütenden Klänge von Rostopchins Stimme, stöhnte und bewegte sich vorwärts, blieb aber wieder stehen.
- Graf! .. - sagte die schüchterne und gleichzeitig theatralische Stimme von Wereschtschagin inmitten einer kurzen Stille. „Graf, ein Gott ist über uns …“, sagte Wereschtschagin und hob den Kopf, und wieder füllte sich die dicke Ader an seinem dünnen Hals mit Blut, und die Farbe kam schnell heraus und floh aus seinem Gesicht. Er brachte nicht zu Ende, was er sagen wollte.
- Schneiden Sie ihn! Ich bestelle! .. - rief Rostopchin und wurde plötzlich so blass wie Wereschtschagin.
- Säbel raus! rief der Offizier den Dragonern zu und zog selbst seinen Säbel.
Eine weitere, noch stärkere Welle schoss durch die Menschen, und nachdem sie die vorderen Reihen erreicht hatte, bewegte diese Welle die vorderen taumelnd und brachte sie bis zu den Stufen der Veranda. Ein großer Kerl mit versteinertem Gesicht und erhobener Hand stand neben Wereschtschagin.
- Rubin! flüsterte fast ein Offizier den Dragonern zu, und plötzlich schlug einer der Soldaten mit verzerrtem Gesicht vor Wut Wereschtschagin mit einem stumpfen Breitschwert auf den Kopf.
"SONDERN!" - Vereshchagin schrie kurz und überrascht auf, sah sich erschrocken um und als würde er nicht verstehen, warum ihm das angetan wurde. Dasselbe Stöhnen der Überraschung und des Entsetzens ging durch die Menge.
"Oh mein Gott!" - jemandes trauriger Ausruf war zu hören.
Aber nach dem überraschten Ausruf, der Wereshchagin entfuhr, schrie er klagend vor Schmerz auf, und dieser Schrei ruinierte ihn. Diese bis zum höchsten Grad gespannte Schranke des menschlichen Gefühls, die noch immer die Menge hielt, brach sofort durch. Das Verbrechen wurde begonnen, es war notwendig, es zu vollenden. Das klagende Stöhnen des Vorwurfs wurde von dem gewaltigen und wütenden Gebrüll der Menge übertönt. Wie die letzte siebte Welle, die Schiffe brach, stieg diese letzte unaufhaltsame Welle aus den hinteren Reihen auf, erreichte die vorderen, warf sie um und verschlang alles. Der Dragoner, der zugeschlagen hatte, wollte seinen Schlag wiederholen. Vereshchagin mit einem Schreckensschrei, der sich mit den Händen schützte, eilte zu den Menschen. Der große Kerl, über den er stolperte, packte mit den Händen Wereschtschagins mageren Hals und fiel mit einem wilden Schrei zusammen mit ihm unter die Füße der brüllenden Menge, die sich angehäuft hatte.
Einige schlugen und zerrten an Wereschtschagin, andere waren große Kerle. Und die Schreie der zerschmetterten Menschen und derjenigen, die versuchten, den großen Kerl zu retten, erregten nur die Wut der Menge. Lange Zeit konnten die Dragoner den blutigen, zu Tode geprügelten Fabrikarbeiter nicht befreien. Und trotz all der fieberhaften Eile, mit der die Menge versuchte, das einmal begonnene Werk zu vollenden, konnten diejenigen, die Wereschtschagin schlugen, erwürgten und zerrissen, ihn lange Zeit nicht töten; aber die Menge zerquetschte sie von allen Seiten, mit ihnen in der Mitte, wie eine Masse, die von einer Seite zur anderen schwankte, und gab ihnen keine Gelegenheit, ihn entweder fertig zu machen oder ihn zu verlassen.

Die gewonnenen Erfahrungswerte enthalten aus verschiedenen Gründen zwangsläufig Fehler. Darunter sind systematische und zufällige Fehler zu unterscheiden. Systematische Fehler sind auf ganz spezifisch wirkende Ursachen zurückzuführen und können immer mit hinreichender Genauigkeit beseitigt bzw. berücksichtigt werden. Zufällige Fehler werden durch eine sehr große Anzahl von Einzelursachen verursacht, die nicht genau erklärt werden können und bei jeder einzelnen Messung unterschiedlich wirken. Diese Fehler können nicht vollständig ausgeschlossen werden; sie können nur im Durchschnitt berücksichtigt werden, wofür es notwendig ist, die Gesetzmäßigkeiten zu kennen, denen zufällige Fehler unterliegen.

Wir bezeichnen den gemessenen Wert mit A und den zufälligen Fehler in der Messung mit x. Da der Fehler x beliebige Werte annehmen kann, handelt es sich um eine stetige Zufallsvariable, die durch ihr eigenes Verteilungsgesetz vollständig charakterisiert ist.

Die einfachste und am genauesten widerspiegelnde Realität (in den allermeisten Fällen) ist die sogenannte Normalverteilung der Fehler:

Dieses Verteilungsgesetz lässt sich aus verschiedenen theoretischen Prämissen gewinnen, insbesondere aus der Forderung, dass der wahrscheinlichste Wert einer unbekannten Größe, für die eine Reihe von Werten mit gleicher Genauigkeit durch direkte Messung gewonnen wird, der arithmetische Mittelwert ist diese Werte. Der Wert 2 wird aufgerufen Streuung dieses normalen Gesetzes.

Arithmetische Mittel

Bestimmung der Streuung nach experimentellen Daten. Wenn für eine beliebige Größe A n Werte a i durch direkte Messung mit demselben Genauigkeitsgrad erhalten werden und die Fehler in der Größe A dem Normalverteilungsgesetz unterliegen, ist der wahrscheinlichste Wert von A arithmetische Mittel:

a - arithmetisches Mittel,

a i - gemessener Wert beim i-ten Schritt.

Abweichung des beobachteten Wertes (für jede Beobachtung) a i von dem Wert A ab arithmetisches Mittel: ein ich - ein.

Um die Streuung der Normalverteilung der Fehler in diesem Fall zu bestimmen, verwenden Sie die Formel:

2 - Streuung,
a - arithmetisches Mittel,
n ist die Anzahl der Parametermessungen,

Standardabweichung

Standardabweichung zeigt die absolute Abweichung der Messwerte an arithmetisches Mittel. Gemäß der Formel für das Linearkombinations-Genauigkeitsmaß mittlerer quadratischer Fehler das arithmetische Mittel wird durch die Formel bestimmt:

, wo


a - arithmetisches Mittel,
n ist die Anzahl der Parametermessungen,
a i - gemessener Wert beim i-ten Schritt.

Der Variationskoeffizient

Der Variationskoeffizient charakterisiert den relativen Grad der Abweichung der Messwerte aus arithmetisches Mittel:

, wo

V - Variationskoeffizient,
- Standardabweichung,
a - arithmetisches Mittel.

Je größer der Wert Variationskoeffizient, desto größer die Streuung und desto geringer die Einheitlichkeit der untersuchten Werte. Wenn ein der Variationskoeffizient weniger als 10 %, so gilt die Streuung der Variationsreihe als unbedeutend, von 10 % bis 20 % als durchschnittlich, mehr als 20 % und weniger als 33 % als erheblich, und wenn der Variationskoeffizient 33 % übersteigt, deutet dies auf die Heterogenität der Informationen und die Notwendigkeit hin, die größten und kleinsten Werte auszuschließen.

Durchschnittliche lineare Abweichung

Einer der Indikatoren für die Reichweite und Intensität der Variation ist mittlere lineare Abweichung(durchschnittlicher Abweichungsmodul) vom arithmetischen Mittel. Durchschnittliche lineare Abweichung berechnet nach der Formel:

, wo

_
a - durchschnittliche lineare Abweichung,
a - arithmetisches Mittel,
n ist die Anzahl der Parametermessungen,
a i - gemessener Wert beim i-ten Schritt.

Um die Übereinstimmung der untersuchten Werte mit dem Gesetz der Normalverteilung zu überprüfen, wird die Beziehung verwendet Asymmetrie-Index zu seinem Fehler und seiner Einstellung Kurtosis-Indikator zu seinem Fehler.

Asymmetrieindex

Asymmetrieindex(A) und sein Fehler (m a) wird mit den folgenden Formeln berechnet:

, wo

A - Asymmetrieanzeige,
- Standardabweichung,
a - arithmetisches Mittel,
n ist die Anzahl der Parametermessungen,
a i - gemessener Wert beim i-ten Schritt.

Kurtosis-Indikator

Kurtosis-Indikator(E) und sein Fehler (m e) wird mit den folgenden Formeln berechnet:

, wo

Das perfekteste Merkmal der Variation ist die Standardabweichung, die als Standard (oder Standardabweichung) bezeichnet wird. Standardabweichung() ist gleich der Quadratwurzel des mittleren Quadrats der Abweichungen einzelner Merkmalswerte vom arithmetischen Mittel:

Die Standardabweichung ist einfach:

Für gruppierte Daten wird die gewichtete Standardabweichung angewendet:

Zwischen mittlerer quadratischer und mittlerer linearer Abweichung unter Normalverteilungsbedingungen besteht folgender Zusammenhang: ~ 1,25.

Die Standardabweichung, die das wichtigste absolute Streuungsmaß ist, wird bei der Bestimmung der Werte der Ordinaten der Normalverteilungskurve, bei Berechnungen im Zusammenhang mit der Organisation der Probenbeobachtung und der Feststellung der Genauigkeit der Probenmerkmale sowie in verwendet Beurteilung der Grenzen der Variation eines Merkmals in einer homogenen Population.

Dispersion, ihre Arten, Standardabweichung.

Varianz einer Zufallsvariablen- ein Maß für die Streuung einer gegebenen Zufallsvariablen, d. h. ihre Abweichung von der mathematischen Erwartung. In der Statistik wird häufig die Bezeichnung oder verwendet. Die Quadratwurzel der Varianz wird als Standardabweichung, Standardabweichung oder Standardstreuung bezeichnet.

Totale Varianz (σ2) misst die Variation eines Merkmals in der gesamten Population unter dem Einfluss aller Faktoren, die diese Variation verursacht haben. Gleichzeitig ist es dank der Gruppierungsmethode möglich, die Variation aufgrund des Gruppierungsmerkmals und die Variation, die unter dem Einfluss nicht berücksichtigter Faktoren auftritt, zu isolieren und zu messen.

Intergruppenvarianz (σ 2 m.gr) charakterisiert die systematische Variation, d. h. Unterschiede in der Größe des untersuchten Merkmals, die unter dem Einfluss des Merkmals entstehen – dem Faktor, der der Gruppierung zugrunde liegt.

Standardabweichung(Synonyme: Standardabweichung, Standardabweichung, Standardabweichung; ähnliche Begriffe: Standardabweichung, Standardstreuung) - in der Wahrscheinlichkeitstheorie und Statistik der häufigste Indikator für die Streuung der Werte einer Zufallsvariablen relativ zu ihrer mathematischen Erwartung. Bei begrenzten Arrays von Samples von Werten wird anstelle der mathematischen Erwartung das arithmetische Mittel des Satzes von Samples verwendet.

Die Standardabweichung wird in Einheiten der Zufallsvariablen selbst gemessen und zur Berechnung des Standardfehlers des arithmetischen Mittels, zur Konstruktion von Konfidenzintervallen, zum statistischen Testen von Hypothesen und zur Messung der linearen Beziehung zwischen Zufallsvariablen verwendet. Sie ist definiert als die Quadratwurzel der Varianz einer Zufallsvariablen.


Standardabweichung:

Standardabweichung(Schätzung der Standardabweichung einer Zufallsvariablen x relativ zu seiner mathematischen Erwartung basierend auf einer unverzerrten Schätzung seiner Varianz):

wo ist die Zerstreuung; — ich-tes Probenelement; — Stichprobengröße; - arithmetisches Mittel der Stichprobe:

Es ist zu beachten, dass beide Schätzungen verzerrt sind. Im allgemeinen Fall ist es unmöglich, eine unverzerrte Schätzung zu erstellen. Eine Schätzung, die auf einer unverzerrten Varianzschätzung basiert, ist jedoch konsistent.

Wesen, Umfang und Verfahren zur Bestimmung von Modus und Median.

Neben Potenzmittelwerten in der Statistik werden für ein relatives Merkmal der Größe eines variierenden Attributs und der internen Struktur von Verteilungsreihen strukturelle Mittelwerte verwendet, die hauptsächlich durch dargestellt werden Modus und Median.

Mode- Dies ist die häufigste Variante der Serie. Mode wird zum Beispiel zur Bestimmung der Größe von Kleidung und Schuhen verwendet, die bei Käufern am gefragtesten sind. Der Modus für eine diskrete Reihe ist die Variante mit der höchsten Frequenz. Bei der Berechnung des Modus für die Intervallvariationsreihe müssen Sie zuerst das modale Intervall (durch die maximale Häufigkeit) und dann den Wert des modalen Werts des Attributs gemäß der Formel bestimmen:

- - modischer Wert

- - untere Grenze des modalen Intervalls

- - Intervallwert

- - modale Intervallfrequenz

- - Häufigkeit des Intervalls vor dem Modal

- - Häufigkeit des Intervalls nach dem Modal

Median - dies ist der Wert des Merkmals, das der Rangfolge zugrunde liegt und diese Reihe in zwei gleich große Teile teilt.

Um den Median in einer diskreten Reihe bei Vorhandensein von Häufigkeiten zu bestimmen, berechnen Sie zuerst die Halbsumme der Häufigkeiten und bestimmen Sie dann, welcher Wert der Variante darauf fällt. (Wenn die sortierte Zeile eine ungerade Anzahl von Merkmalen enthält, wird die Medianzahl nach folgender Formel berechnet:

M e \u003d (n (Anzahl der Merkmale insgesamt) + 1) / 2,

bei einer geraden Anzahl von Merkmalen ist der Median gleich dem Durchschnitt der beiden Merkmale in der Mitte der Reihe).

Beim Rechnen Mediane Bestimmen Sie bei einer Intervallvariationsreihe zuerst das Medianintervall, in dem sich der Median befindet, und dann den Wert des Medians gemäß der Formel:

- ist der gewünschte Median

- ist die untere Grenze des Intervalls, das den Median enthält

- - Intervallwert

- - die Summe der Häufigkeiten oder die Anzahl der Mitglieder der Reihe

Die Summe der akkumulierten Häufigkeiten der Intervalle vor dem Median

- ist die Häufigkeit des Medianintervalls

Beispiel. Finden Sie den Modus und den Median.

Entscheidung:
In diesem Beispiel liegt das modale Intervall innerhalb der Altersgruppe von 25–30 Jahren, da dieses Intervall die höchste Häufigkeit (1054) ausmacht.

Lassen Sie uns den Moduswert berechnen:

Dies bedeutet, dass das modale Alter der Studenten 27 Jahre beträgt.

Berechnen Sie den Median. Das Medianintervall liegt in der Altersgruppe von 25-30 Jahren, da es innerhalb dieses Intervalls eine Variante gibt, die die Bevölkerung in zwei gleiche Teile teilt (Σf i /2 = 3462/2 = 1731). Als nächstes setzen wir die notwendigen numerischen Daten in die Formel ein und erhalten den Wert des Medians:

Das bedeutet, dass die eine Hälfte der Studierenden jünger als 27,4 Jahre und die andere Hälfte älter als 27,4 Jahre ist.

Neben Modus und Median können Indikatoren wie Quartile verwendet werden, die die Rangfolge in 4 gleiche Teile teilen, Dezile- 10 Teile und Perzentile - pro 100 Teile.

Das Konzept der selektiven Beobachtung und seine Reichweite.

Selektive Beobachtung gilt bei kontinuierlicher Beobachtung physikalisch unmöglich aufgrund einer großen Datenmenge bzw wirtschaftlich nicht praktikabel. Physikalische Unmöglichkeit tritt beispielsweise bei der Untersuchung von Passagierströmen, Marktpreisen, Familienbudgets auf. Wirtschaftliche Unzweckmäßigkeit tritt auf, wenn die Qualität von Waren im Zusammenhang mit ihrer Vernichtung beurteilt wird, z. B. Verkostung, Festigkeitsprüfung von Ziegeln usw.

Statistische Einheiten, die für die Beobachtung ausgewählt wurden, bilden eine Stichprobe oder Stichprobe und deren gesamtes Array - die allgemeine Bevölkerung (GS). In diesem Fall bezeichnet die Anzahl der Einheiten in der Stichprobe n, und im gesamten HS - N. Attitüde n/n wird als relative Größe oder Anteil der Stichprobe bezeichnet.

Die Qualität der Probenahmeergebnisse hängt von der Repräsentativität der Probe ab, d.h. wie repräsentativ sie im HS ist. Um die Repräsentativität der Stichprobe zu gewährleisten, ist eine Beobachtung erforderlich Prinzip der Zufallsauswahl von Einheiten, die davon ausgeht, dass die Einbeziehung einer HS-Einheit in die Stichprobe durch keinen anderen Faktor als den Zufall beeinflusst werden kann.

Existieren 4 Möglichkeiten der zufälligen Auswahl zum Probieren:

  1. Eigentlich zufällig Auswahl oder "Lotto-Verfahren", bei dem statistischen Werten fortlaufende Nummern zugeordnet, auf bestimmten Gegenständen (z. B. Fässern) eingetragen, dann in einem bestimmten Behältnis (z. B. in einer Tüte) gemischt und zufällig ausgewählt werden. In der Praxis wird dieses Verfahren unter Verwendung eines Zufallszahlengenerators oder mathematischer Tabellen von Zufallszahlen durchgeführt.
  2. Mechanisch Auswahl, nach der jeweils ( N/n)-ten Wert der allgemeinen Bevölkerung. Wenn es beispielsweise 100.000 Werte enthält und Sie 1.000 auswählen möchten, fällt jeder 100.000 / 1000 = 100. Wert in die Stichprobe. Wenn sie keine Rangfolge haben, wird der erste zufällig aus den ersten hundert ausgewählt, und die Anzahl der anderen wird einhundert höher sein. Wenn zum Beispiel Einheit Nummer 19 die erste war, dann sollte Nummer 119 die nächste sein, dann Nummer 219, dann Nummer 319 und so weiter. Wenn die Bevölkerungseinheiten in eine Rangfolge gebracht werden, wird zuerst Nr. 50 ausgewählt, dann Nr. 150, dann Nr. 250 und so weiter.
  3. Die Auswahl von Werten aus einem heterogenen Datenfeld erfolgt geschichtet(stratifizierte) Methode, bei der die allgemeine Bevölkerung zuvor in homogene Gruppen aufgeteilt wird, auf die eine zufällige oder mechanische Auswahl angewendet wird.
  4. Ein spezielles Probenahmeverfahren ist seriell Selektion, bei der nicht einzelne Größen zufällig oder mechanisch ausgewählt werden, sondern deren Reihen (Folgen von einer Zahl zu einer Reihe), innerhalb derer eine kontinuierliche Beobachtung durchgeführt wird.

Die Qualität der Stichprobenbeobachtungen hängt auch davon ab Sampling-Typ: wiederholt oder nicht wiederholend.

Beim Neuauswahl Die statistischen Werte oder ihre Reihen, die in die Stichprobe gefallen sind, werden nach der Verwendung an die Allgemeinbevölkerung zurückgegeben und haben die Möglichkeit, in eine neue Stichprobe zu gelangen. Gleichzeitig haben alle Werte der Allgemeinbevölkerung die gleiche Wahrscheinlichkeit, in die Stichprobe aufgenommen zu werden.

Sich nicht wiederholende Auswahl bedeutet, dass die in der Stichprobe enthaltenen statistischen Werte oder deren Reihen nach der Verwendung nicht an die allgemeine Bevölkerung zurückgegeben werden und daher die Wahrscheinlichkeit steigt, in die nächste Stichprobe zu gelangen, für die verbleibenden Werte der letzteren.

Die nicht wiederholte Probenahme liefert genauere Ergebnisse und wird daher häufiger verwendet. Es gibt jedoch Situationen, in denen es nicht angewendet werden kann (Untersuchung von Passagierströmen, Verbrauchernachfrage usw.), und dann wird eine Neuauswahl durchgeführt.

Der marginale Fehler der Beobachtungsstichprobe, der durchschnittliche Fehler der Stichprobe, die Reihenfolge, in der sie berechnet werden.

Betrachten wir die obigen Methoden zur Bildung einer Stichprobenpopulation und die Fehler, die in diesem Fall auftreten, im Detail. Repräsentativität .
Eigentlich zufällig Die Stichprobe basiert auf der zufälligen Auswahl von Einheiten aus der Allgemeinbevölkerung ohne Konsistenzelemente. Technisch gesehen wird eine ordnungsgemäße Zufallsauswahl durch Ziehung von Losen (z. B. Lotterien) oder durch eine Tabelle mit Zufallszahlen durchgeführt.

Tatsächlich wird die zufällige Auswahl "in ihrer reinen Form" in der Praxis der selektiven Beobachtung selten verwendet, aber sie ist die erste unter anderen Arten der Auswahl, sie implementiert die Grundprinzipien der selektiven Beobachtung. Betrachten wir einige Fragen der Theorie des Stichprobenverfahrens und der Fehlerformel für eine einfache Zufallsstichprobe.

Stichprobenfehler- Dies ist die Differenz zwischen dem Wert des Parameters in der Allgemeinbevölkerung und seinem Wert, der aus den Ergebnissen der Stichprobenbeobachtung berechnet wird. Für ein durchschnittliches quantitatives Merkmal wird der Stichprobenfehler bestimmt durch

Der Indikator wird als marginaler Stichprobenfehler bezeichnet.
Der Stichprobenmittelwert ist eine Zufallsvariable, die je nachdem, welche Einheiten in der Stichprobe enthalten sind, unterschiedliche Werte annehmen kann. Daher sind Stichprobenfehler ebenfalls Zufallsvariablen und können unterschiedliche Werte annehmen. Bestimmen Sie daher den Durchschnitt der möglichen Fehler - mittlerer Stichprobenfehler, was abhängig ist von:

Stichprobenumfang: Je größer die Zahl, desto kleiner der durchschnittliche Fehler;

Der Grad der Veränderung des untersuchten Merkmals: Je kleiner die Variation des Merkmals und folglich die Varianz, desto kleiner der durchschnittliche Stichprobenfehler.

Beim zufällige Neuauswahl Der durchschnittliche Fehler wird berechnet:
.
In der Praxis ist die allgemeine Varianz nicht genau bekannt, aber in Wahrscheinlichkeitstheorie geprüft, dass
.
Da der Wert für ausreichend großes n nahe bei 1 liegt, können wir davon ausgehen, dass . Dann kann der mittlere Stichprobenfehler berechnet werden:
.
Aber in Fällen einer kleinen Stichprobe (für n<30) коэффициент необходимо учитывать, и среднюю ошибку малой выборки рассчитывать по формуле
.

Beim Stichproben die angegebenen Formeln werden um den Wert korrigiert. Dann ist der durchschnittliche Fehler der Nichtabtastung:
und .
weil immer kleiner als , dann ist der Faktor () immer kleiner als 1. Das bedeutet, dass der durchschnittliche Fehler bei nicht-repetitiver Auswahl immer kleiner ist als bei wiederholter Auswahl.
Mechanische Probenahme wird verwendet, wenn die allgemeine Bevölkerung in irgendeiner Weise geordnet ist (z. B. Wählerlisten in alphabetischer Reihenfolge, Telefonnummern, Hausnummern, Wohnungen). Die Auswahl der Einheiten erfolgt in einem bestimmten Intervall, das dem Kehrwert des Prozentsatzes der Stichprobe entspricht. Bei einer Stichprobe von 2 % wird also jede 50. Einheit = 1 / 0,02 ausgewählt, bei 5 % jede 1 / 0,05 = 20 Einheit der Allgemeinbevölkerung.

Der Ursprung wird auf unterschiedliche Weise gewählt: zufällig, aus der Mitte des Intervalls, mit einer Änderung des Ursprungs. Die Hauptsache ist, systematische Fehler zu vermeiden. Wenn zum Beispiel bei einer Stichprobe von 5 % die 13. als erste Einheit gewählt wird, dann die nächsten 33, 53, 73 usw.

In Bezug auf die Genauigkeit kommt die mechanische Auswahl einer echten Zufallsauswahl nahe. Um den durchschnittlichen Fehler der mechanischen Probenahme zu bestimmen, werden daher Formeln einer geeigneten zufälligen Auswahl verwendet.

Beim typische Auswahl Die befragte Bevölkerung wird vorläufig in homogene, typengleiche Gruppen eingeteilt. Bei der Befragung von Unternehmen können dies beispielsweise Branchen, Teilbranchen sein, bei der Untersuchung der Bevölkerung – Bereiche, soziale oder Altersgruppen. Dann wird eine unabhängige Auswahl aus jeder Gruppe auf mechanische oder richtige zufällige Weise getroffen.

Eine typische Probenahme liefert genauere Ergebnisse als andere Methoden. Die Typisierung der Allgemeinbevölkerung stellt die Repräsentation jeder typologischen Gruppe in der Stichprobe sicher, wodurch der Einfluss der Intergruppenvarianz auf den durchschnittlichen Stichprobenfehler ausgeschlossen werden kann. Daher muss bei der Ermittlung des Fehlers einer typischen Stichprobe gemäß der Regel der Addition von Varianzen () nur der Durchschnitt der Gruppenvarianzen berücksichtigt werden. Dann ist der mittlere Stichprobenfehler:
bei der Neuauswahl
,
mit einmaliger Auswahl
,
wo ist der Mittelwert der gruppeninternen Varianzen in der Stichprobe.

Serielle (oder verschachtelte) Auswahl verwendet, wenn die Grundgesamtheit vor Beginn der Stichprobenerhebung in Serien oder Gruppen eingeteilt wird. Diese Serien können Pakete von fertigen Produkten, Studentengruppen, Teams sein. Untersuchungsserien werden maschinell oder zufällig ausgewählt und innerhalb der Serie wird eine vollständige Erhebung der Einheiten durchgeführt. Daher hängt der durchschnittliche Stichprobenfehler nur von der Varianz zwischen den Gruppen (Interseries) ab, die nach folgender Formel berechnet wird:

wobei r die Anzahl der ausgewählten Serien ist;
- der Durchschnitt der i-ten Reihe.

Der durchschnittliche serielle Stichprobenfehler wird berechnet:

bei Neuwahl:
,
bei einmaliger Auswahl:
,
wobei R die Gesamtzahl der Serien ist.

Kombiniert Auswahl ist eine Kombination der betrachteten Auswahlverfahren.

Der durchschnittliche Stichprobenfehler für jede Auswahlmethode hängt hauptsächlich von der absoluten Größe der Stichprobe und in geringerem Maße vom Prozentsatz der Stichprobe ab. Angenommen, im ersten Fall werden 225 Beobachtungen aus einer Population von 4.500 Einheiten und im zweiten Fall aus 225.000 Einheiten gemacht. Die Varianzen sind in beiden Fällen gleich 25. Dann ist im ersten Fall bei einer Auswahl von 5 % der Stichprobenfehler:

Im zweiten Fall, bei einer Auswahl von 0,1 %, ist es gleich:


Auf diese Weise, bei einer Verringerung des Stichprobenprozentsatzes um das 50-fache stieg der Stichprobenfehler leicht an, da sich die Stichprobengröße nicht änderte.
Angenommen, die Stichprobengröße wird auf 625 Beobachtungen erhöht. Der Stichprobenfehler beträgt in diesem Fall:

Eine Vergrößerung der Stichprobe um das 2,8-fache bei gleicher Größe der Allgemeinbevölkerung verringert die Größe des Stichprobenfehlers um mehr als das 1,6-fache.

Methoden und Mittel zur Bildung einer Stichprobenpopulation.

In der Statistik werden verschiedene Methoden zur Bildung von Stichproben verwendet, die von den Zielen der Studie bestimmt werden und von den Besonderheiten des Untersuchungsgegenstands abhängen.

Die Hauptbedingung für die Durchführung einer Stichprobenerhebung besteht darin, das Auftreten systematischer Fehler zu verhindern, die sich aus der Verletzung des Grundsatzes der Chancengleichheit für jede Einheit der Allgemeinbevölkerung ergeben, um in die Stichprobe aufgenommen zu werden. Die Vermeidung systematischer Fehler wird durch den Einsatz wissenschaftlich fundierter Methoden zur Bildung einer Stichprobenpopulation erreicht.

Es gibt folgende Möglichkeiten, Einheiten aus der allgemeinen Bevölkerung auszuwählen:

1) individuelle Auswahl - einzelne Einheiten werden in der Stichprobe ausgewählt;

2) Gruppenauswahl – qualitativ homogene Gruppen oder Reihen von untersuchten Einheiten fallen in die Stichprobe;

3) Kombinierte Selektion ist eine Kombination aus Einzel- und Gruppenselektion.
Die Auswahlverfahren werden durch die Regeln für die Bildung der Stichprobengesamtheit bestimmt.

Die Probe kann sein:

  • richtig zufällig besteht darin, dass die Stichprobe durch zufällige (unbeabsichtigte) Auswahl einzelner Einheiten aus der Allgemeinbevölkerung gebildet wird. In diesem Fall wird die Anzahl der im Stichprobensatz ausgewählten Einheiten normalerweise anhand des akzeptierten Anteils der Stichprobe bestimmt. Der Stichprobenanteil ist das Verhältnis der Anzahl der Einheiten in der Grundgesamtheit n zur Anzahl der Einheiten in der Allgemeinbevölkerung N, d. h.
  • mechanisch besteht darin, dass die Auswahl der Einheiten in der Stichprobe aus der Allgemeinbevölkerung erfolgt, die in gleiche Intervalle (Gruppen) unterteilt ist. In diesem Fall ist die Größe des Intervalls in der Allgemeinbevölkerung gleich dem Kehrwert des Stichprobenanteils. Bei einer 2%-Stichprobe wird also jede 50. Einheit ausgewählt (1:0,02), bei einer 5%-Stichprobe jede 20. Einheit (1:0,05) usw. So wird die allgemeine Bevölkerung entsprechend dem angenommenen Selektionsverhältnis gleichsam mechanisch in gleiche Gruppen geteilt. Aus jeder Gruppe in der Stichprobe wird nur eine Einheit ausgewählt.
  • typisch - in dem die Allgemeinbevölkerung zunächst in homogene typische Gruppen eingeteilt wird. Dann wird aus jeder typischen Gruppe eine individuelle Auswahl von Einheiten in die Stichprobe durch eine Zufalls- oder mechanische Stichprobe getroffen. Ein wichtiges Merkmal einer typischen Stichprobe ist, dass sie im Vergleich zu anderen Methoden zur Auswahl von Einheiten in einer Stichprobe genauere Ergebnisse liefert;
  • seriell- bei der die Allgemeinbevölkerung in gleich große Gruppen eingeteilt wird - Serien. Im Mustersatz werden Serien ausgewählt. Innerhalb der Serie erfolgt eine kontinuierliche Beobachtung der in die Serie gefallenen Einheiten;
  • kombiniert- Die Probenahme kann zweistufig erfolgen. Dabei wird die Allgemeinbevölkerung zunächst in Gruppen eingeteilt. Dann werden die Gruppen ausgewählt, und innerhalb dieser werden einzelne Einheiten ausgewählt.

In der Statistik werden folgende Methoden zur Auswahl von Einheiten in einer Stichprobe unterschieden::

  • einstufig Probe - jede ausgewählte Einheit wird sofort einer Untersuchung auf einer bestimmten Grundlage unterzogen (eigentlich Zufalls- und Serienproben);
  • mehrstufig Probenahme – Auswahl erfolgt aus der allgemeinen Population einzelner Gruppen, und einzelne Einheiten werden aus den Gruppen ausgewählt (eine typische Stichprobe mit einem mechanischen Verfahren zur Auswahl von Einheiten in der Stichprobenpopulation).

Außerdem gibt es:

  • Neuauswahl- nach dem Schema des zurückgegebenen Balls. In diesem Fall wird jede Einheit oder Serie, die in die Stichprobe gefallen ist, an die allgemeine Bevölkerung zurückgegeben und hat daher die Chance, erneut in die Stichprobe aufgenommen zu werden;
  • sich nicht wiederholende Auswahl- nach dem Schema des nicht zurückgegebenen Balls. Es hat genauere Ergebnisse für die gleiche Stichprobengröße.

Bestimmung des erforderlichen Stichprobenumfangs (unter Verwendung der Student-Tabelle).

Eines der wissenschaftlichen Prinzipien der Stichprobentheorie besteht darin, sicherzustellen, dass eine ausreichende Anzahl von Einheiten ausgewählt wird. Theoretisch wird die Notwendigkeit, dieses Prinzip einzuhalten, in den Beweisen der Grenzwertsätze der Wahrscheinlichkeitstheorie dargestellt, mit denen Sie feststellen können, wie viele Einheiten aus der allgemeinen Bevölkerung ausgewählt werden sollten, damit es ausreichend ist und die Repräsentativität der Stichprobe gewährleistet ist.

Eine Verringerung des Standardfehlers der Stichprobe und folglich eine Erhöhung der Genauigkeit der Schätzung ist immer mit einer Erhöhung der Stichprobengröße verbunden, daher muss bereits in der Phase der Organisation einer Stichprobenbeobachtung entschieden werden wie groß die Stichprobe sein sollte, um die erforderliche Genauigkeit der Beobachtungsergebnisse zu gewährleisten. Die Berechnung des erforderlichen Stichprobenumfangs basiert auf Formeln, die von den Formeln für die marginalen Stichprobenfehler (A) abgeleitet sind, die der einen oder anderen Art und Methode der Auswahl entsprechen. Für eine zufällig wiederholte Stichprobengröße (n) gilt also:

Die Essenz dieser Formel besteht darin, dass bei einer zufälligen Neuauswahl der erforderlichen Anzahl die Stichprobengröße direkt proportional zum Quadrat des Konfidenzkoeffizienten ist (t2) und Varianz des Variationsmerkmals (?2) und ist umgekehrt proportional zum Quadrat des marginalen Stichprobenfehlers (?2). Insbesondere durch die Verdoppelung des Grenzfehlers kann die erforderliche Stichprobengröße um den Faktor vier reduziert werden. Von den drei Parametern werden zwei (t und?) vom Forscher eingestellt.

Gleichzeitig der Forscher Für die Zwecke der Stichprobenerhebung sollte die Frage entschieden werden: In welcher quantitativen Kombination sollte man diese Parameter besser einbeziehen, um die optimale Variante bereitzustellen? In einem Fall ist er möglicherweise zufriedener mit der Zuverlässigkeit der erhaltenen Ergebnisse (t) als mit dem Genauigkeitsmaß (?), im anderen - umgekehrt. Es ist schwieriger, das Problem in Bezug auf den Wert des marginalen Stichprobenfehlers zu lösen, da der Forscher diesen Indikator in der Phase der Planung einer Stichprobenbeobachtung nicht hat, daher ist es in der Praxis üblich, den marginalen Stichprobenfehler als festzulegen in der Regel innerhalb von 10 % des erwarteten durchschnittlichen Niveaus des Merkmals. Die Ermittlung eines angenommenen Durchschnittsniveaus kann auf verschiedene Weise angegangen werden: Verwendung von Daten aus ähnlichen früheren Erhebungen oder Verwendung von Daten aus dem Stichprobenrahmen und Entnahme einer kleinen Pilotstichprobe.

Das Schwierigste, was beim Entwerfen einer Stichprobenbeobachtung festzustellen ist, ist der dritte Parameter in Formel (5.2) – die Varianz der Stichprobenpopulation. In diesem Fall ist es notwendig, alle dem Ermittler zur Verfügung stehenden Informationen zu verwenden, die er aus früheren ähnlichen und Piloterhebungen erhalten hat.

Definitionsfrage Die erforderliche Stichprobengröße wird komplizierter, wenn die Stichprobenerhebung die Untersuchung mehrerer Merkmale von Stichprobeneinheiten umfasst. In diesem Fall sind die durchschnittlichen Niveaus der einzelnen Merkmale und ihre Variation in der Regel unterschiedlich, und daher ist es möglich, nur unter Berücksichtigung des Zwecks und der Ziele zu entscheiden, welche Streuung welchen der Merkmale zu bevorzugen ist die Umfrage.

Beim Entwerfen einer Stichprobenbeobachtung wird ein vorgegebener Wert des zulässigen Stichprobenfehlers in Übereinstimmung mit den Zielen einer bestimmten Studie und der Wahrscheinlichkeit von Schlussfolgerungen auf der Grundlage der Beobachtungsergebnisse angenommen.

Im Allgemeinen können Sie mit der Formel für den Grenzfehler des Stichprobenmittelwerts Folgendes bestimmen:

Das Ausmaß möglicher Abweichungen der Indikatoren der Allgemeinbevölkerung von den Indikatoren der Stichprobenpopulation;

Die erforderliche Stichprobengröße, die die erforderliche Genauigkeit bietet, bei der die Grenzen eines möglichen Fehlers einen bestimmten festgelegten Wert nicht überschreiten;

Die Wahrscheinlichkeit, dass der Fehler in der Stichprobe eine bestimmte Grenze hat.

Schülerverteilung in der Wahrscheinlichkeitstheorie handelt es sich um eine einparametrige Familie absolut kontinuierlicher Verteilungen.

Dynamikreihen (Intervall, Moment), Abschluss von Dynamikreihen.

Reihe Dynamik- Dies sind die Werte statistischer Indikatoren, die in einer bestimmten chronologischen Reihenfolge dargestellt werden.

Jede Zeitreihe enthält zwei Komponenten:

1) Indikatoren für Zeiträume (Jahre, Quartale, Monate, Tage oder Daten);

2) Indikatoren, die das untersuchte Objekt für Zeiträume oder an den entsprechenden Daten charakterisieren, die als Ebenen der Reihe bezeichnet werden.

Die Ebenen der Reihe werden ausgedrückt sowohl absolute als auch durchschnittliche oder relative Werte. Je nach Art der Indikatoren werden dynamische Reihen von absoluten, relativen und durchschnittlichen Werten erstellt. Dynamische Reihen relativer und durchschnittlicher Werte werden auf der Grundlage abgeleiteter Reihen absoluter Werte erstellt. Es gibt Intervall- und Momentreihen der Dynamik.

Dynamische Intervallserie enthält die Werte von Indikatoren für bestimmte Zeiträume. In der Intervallreihe können die Pegel aufsummiert werden, um das Volumen des Phänomens für einen längeren Zeitraum oder die sogenannten kumulierten Summen zu erhalten.

Dynamische Momentserie spiegelt die Werte von Indikatoren zu einem bestimmten Zeitpunkt (Zeitpunkt) wider. Bei Momentreihen interessiert sich der Forscher möglicherweise nur für die Differenz von Phänomenen, die die Änderung der Ebene der Reihe zwischen bestimmten Daten widerspiegeln, da die Summe der Ebenen hier keinen wirklichen Inhalt hat. Kumulierte Summen werden hier nicht berechnet.

Die wichtigste Voraussetzung für die korrekte Konstruktion dynamischer Reihen ist die Vergleichbarkeit der zeitlichen Ebenen von Reihen. Ebenen sollten in homogenen Mengen dargestellt werden, es sollte die gleiche Vollständigkeit der Abdeckung verschiedener Teile des Phänomens geben.

Damit Um die reale Dynamik nicht zu verfälschen, werden in der statistischen Studie (dem Abschluss der Zeitreihen) Vorberechnungen durchgeführt, die der statistischen Analyse der Zeitreihen vorausgehen. Unter dem Abschluss von Zeitreihen versteht man die Zusammenfassung zweier oder mehrerer Reihen zu einer Reihe, deren Niveaus nach unterschiedlichen Methoden berechnet werden oder nicht territorialen Grenzen entsprechen usw. Der Abschluss der Dynamikreihe kann auch die Reduktion der absoluten Ebenen der Dynamikreihe auf eine gemeinsame Basis bedeuten, wodurch die Inkompatibilität der Ebenen der Dynamikreihe beseitigt wird.

Das Konzept der Vergleichbarkeit von Zeitreihen, Koeffizienten, Wachstum und Wachstumsraten.

Reihe Dynamik- Dies sind Reihen statistischer Indikatoren, die die Entwicklung natürlicher und sozialer Phänomene im Laufe der Zeit charakterisieren. Die vom Staatlichen Komitee für Statistik Russlands veröffentlichten statistischen Sammlungen enthalten eine große Anzahl von Zeitreihen in tabellarischer Form. Reihen von Dynamiken ermöglichen das Aufdecken von Mustern der Entwicklung der untersuchten Phänomene.

Zeitreihen enthalten zwei Arten von Indikatoren. Zeitindikatoren(Jahre, Quartale, Monate usw.) oder Zeitpunkte (am Anfang des Jahres, am Anfang jedes Monats usw.). Anzeigen auf Zeilenebene. Indikatoren für das Niveau von Zeitreihen können in absoluten Werten (Produktion in Tonnen oder Rubel), relativen Werten (Anteil der städtischen Bevölkerung in %) und Durchschnittswerten (durchschnittliche Löhne von Industriearbeitern nach Jahren, etc.). In tabellarischer Form enthält die Zeitreihe zwei Spalten oder zwei Zeilen.

Die korrekte Konstruktion von Zeitreihen beinhaltet die Erfüllung einer Reihe von Anforderungen:

  1. alle Indikatoren einer Reihe von Dynamiken müssen wissenschaftlich fundiert und zuverlässig sein;
  2. Indikatoren einer Reihe von Dynamiken sollten zeitlich vergleichbar sein, d.h. müssen für die gleichen Zeiträume oder zu den gleichen Daten berechnet werden;
  3. Indikatoren für eine Reihe von Dynamiken sollten im gesamten Gebiet vergleichbar sein;
  4. Indikatoren einer Reihe von Dynamiken sollten inhaltlich vergleichbar sein, d.h. auf die gleiche Weise nach einer einheitlichen Methode berechnet;
  5. Indikatoren einer Reihe von Dynamiken sollten über die Bandbreite der betrachteten landwirtschaftlichen Betriebe hinweg vergleichbar sein. Alle Indikatoren einer Reihe von Dynamiken sollten in denselben Maßeinheiten angegeben werden.

Statistische Indikatoren kann entweder die Ergebnisse des untersuchten Prozesses über einen bestimmten Zeitraum oder den Zustand des untersuchten Phänomens zu einem bestimmten Zeitpunkt charakterisieren, d.h. Indikatoren können Intervall (periodisch) und sofort sein. Dementsprechend kann die Dynamikreihe zunächst entweder Intervall oder Moment sein. Die Momentenreihen der Dynamik wiederum können mit gleichen und ungleichen Zeitintervallen sein.

Die anfängliche Dynamikreihe kann in eine Reihe von Durchschnittswerten und eine Reihe von relativen Werten (Kette und Basis) umgewandelt werden. Solche Zeitreihen werden als abgeleitete Zeitreihen bezeichnet.

Die Methode zur Berechnung des Durchschnittspegels in der Dynamikreihe ist aufgrund der Art der Dynamikreihe unterschiedlich. Betrachten Sie anhand von Beispielen die Arten von Zeitreihen und Formeln zur Berechnung des Durchschnittsniveaus.

Absolute Gewinne (Δy) zeigen, um wie viele Einheiten sich die nachfolgende Ebene der Serie im Vergleich zur vorherigen (Spalte 3. - Ketten-Absolutinkremente) oder im Vergleich zur Ausgangsebene (Spalte 4. - Grund-Absolutinkremente) geändert hat. Die Berechnungsformeln können wie folgt geschrieben werden:

Bei einer Abnahme der absoluten Werte der Reihe kommt es zu einer "Abnahme" bzw. "Abnahme".

Die absoluten Wachstumsindikatoren zeigen beispielsweise, dass die Produktion von Produkt „A“ 1998 gegenüber 1997 um 4.000 Tonnen und gegenüber 1994 um 34.000 Tonnen gestiegen ist; für andere Jahre siehe Tabelle. 11,5 gr. 3 und 4.

Wachstumsfaktor zeigt, wie oft sich das Niveau der Reihe im Vergleich zum vorherigen (Spalte 5 - Kettenwachstums- oder -rückgangskoeffizienten) oder im Vergleich zum Ausgangsniveau (Spalte 6 - Grundwachstums- oder -rückgangskoeffizienten) geändert hat. Die Berechnungsformeln können wie folgt geschrieben werden:

Wachstumsraten zeigen, um wie viel Prozent die nächste Stufe der Reihe mit der vorherigen (Spalte 7 - Kettenwachstumsraten) oder mit der Ausgangsstufe (Spalte 8 - Grundwachstumsraten) verglichen wird. Die Berechnungsformeln können wie folgt geschrieben werden:

So betrug beispielsweise 1997 das Produktionsvolumen von Produkt „A“ im Vergleich zu 1996 105,5 % (

Wachstumsrate zeigen, um wie viel Prozent das Niveau des Berichtszeitraums im Vergleich zum vorherigen (Spalte 9 - Kettenwachstumsraten) oder im Vergleich zum Ausgangsniveau (Spalte 10 - Basiswachstumsraten) gestiegen ist. Die Berechnungsformeln können wie folgt geschrieben werden:

T pr \u003d T p - 100% oder T pr \u003d absoluter Anstieg / Niveau der Vorperiode * 100%

So wurde beispielsweise 1996 im Vergleich zu 1995 das Produkt "A" um 3,8 % (103,8 % - 100 %) oder (8:210) x 100 % mehr produziert, und im Vergleich zu 1994. - um 9 % ( 109 % - 100 %).

Wenn die absoluten Werte in der Reihe sinken, dann wird die Rate kleiner als 100 % und dementsprechend gibt es eine Abnahmerate (Wachstumsrate mit Minuszeichen).

Absoluter Wert von 1% Anstieg(Spalte 11) zeigt, wie viele Einheiten in einem bestimmten Zeitraum produziert werden müssen, damit sich das Niveau der Vorperiode um 1 % erhöht. In unserem Beispiel mussten 1995 2,0 Tausend Tonnen und 1998 2,3 Tausend Tonnen produziert werden, d.h. viel größer.

Es gibt zwei Möglichkeiten, die Größe des absoluten Werts von 1 % Wachstum zu bestimmen:

Teilen Sie das Niveau der vorherigen Periode durch 100;

Teilen Sie die absoluten Kettenwachstumsraten durch die entsprechenden Kettenwachstumsraten.

Absoluter Wert von 1% Anstieg =

In der Dynamik, insbesondere über einen langen Zeitraum, ist es wichtig, die Wachstumsrate mit dem Inhalt jeder prozentualen Zunahme oder Abnahme gemeinsam zu analysieren.

Beachten Sie, dass die betrachtete Methode zur Analyse von Zeitreihen sowohl für Zeitreihen anwendbar ist, deren Niveaus in absoluten Werten (t, Tausend Rubel, Anzahl der Mitarbeiter usw.) ausgedrückt werden, als auch für Zeitreihen, die Niveaus von die in relativen Indikatoren (% Schrott, % Aschegehalt der Kohle usw.) oder Durchschnittswerten (Durchschnittsertrag in c/ha, Durchschnittslöhne usw.) ausgedrückt werden.

Zusammen mit den betrachteten analytischen Indikatoren, die für jedes Jahr im Vergleich zum vorherigen oder anfänglichen Niveau berechnet werden, müssen bei der Analyse der Zeitreihen die durchschnittlichen analytischen Indikatoren für den Zeitraum berechnet werden: das durchschnittliche Niveau der Reihe, der durchschnittliche jährliche absolute Anstieg (Abnahme) und die durchschnittliche jährliche Wachstumsrate und Wachstumsrate.

Verfahren zum Berechnen des durchschnittlichen Pegels einer Reihe von Dynamiken wurden oben diskutiert. In der Intervallreihe der Dynamik, die wir betrachten, wird das durchschnittliche Niveau der Reihe durch die einfache Formel des arithmetischen Mittels berechnet:

Die durchschnittliche Jahresproduktion des Produkts für 1994-1998. belief sich auf 218,4 Tausend Tonnen.

Der durchschnittliche absolute Jahreszuwachs errechnet sich ebenfalls nach der Formel des einfachen arithmetischen Mittels:

Die jährlichen absoluten Zuwächse variierten im Laufe der Jahre zwischen 4.000 und 12.000 Tonnen (siehe Tabelle 3), und die durchschnittliche jährliche Produktionssteigerung für den Zeitraum 1995 - 1998. belief sich auf 8,5 Tausend Tonnen.

Methoden zur Berechnung der durchschnittlichen Wachstumsrate und der durchschnittlichen Wachstumsrate bedürfen einer genaueren Betrachtung. Betrachten wir sie am Beispiel der in der Tabelle angegebenen jährlichen Indikatoren der Serienebene.

Die mittlere Ebene des Dynamikbereichs.

Reihe von Dynamiken (oder Zeitreihen)- Dies sind die numerischen Werte eines bestimmten statistischen Indikators zu aufeinanderfolgenden Zeitpunkten oder Zeiträumen (d. h. in chronologischer Reihenfolge angeordnet).

Die numerischen Werte eines bestimmten statistischen Indikators, der eine Reihe von Dynamiken ausmacht, werden genannt Ebenen einer Zahl und wird normalerweise mit dem Buchstaben bezeichnet j. Erstes Mitglied der Reihe ja 1 genannt Anfangs- bzw Grundlinie, und der letzte ja n - Finale. Die Momente oder Zeitspannen, auf die sich die Ebenen beziehen, sind mit gekennzeichnet t.

Dynamische Reihen werden in der Regel in Form einer Tabelle oder eines Diagramms dargestellt, und entlang der x-Achse wird eine Zeitskala erstellt t, und entlang der Ordinate - die Skala der Ebenen der Reihe j.

Durchschnittliche Indikatoren einer Reihe von Dynamiken

Jede Reihe von Dynamiken kann als eine bestimmte Menge betrachtet werden n zeitlich veränderliche Indikatoren, die als Durchschnittswerte zusammengefasst werden können. Solche verallgemeinerten (Durchschnitts-)Indikatoren sind besonders notwendig, wenn die Veränderungen des einen oder anderen Indikators in verschiedenen Zeiträumen, in verschiedenen Ländern usw. verglichen werden.

Ein verallgemeinertes Merkmal einer Reihe von Dynamiken kann zunächst sein durchschnittliche Zeilenhöhe. Die Methode zur Berechnung des Durchschnittspegels hängt davon ab, ob es sich um eine Momentreihe oder eine Intervallreihe (Periode) handelt.

Im Fall von Intervall Serie, ihr Durchschnittsniveau wird durch die Formel eines einfachen arithmetischen Mittels der Niveaus der Serie bestimmt, d.h.

=
Wenn verfügbar Moment Zeile enthält n Ebenen ( y1, y2, …, yn) mit gleichen Datumsabständen (Zeitpunkten), dann lässt sich eine solche Reihe leicht in eine Reihe von Durchschnittswerten umwandeln. Gleichzeitig ist der Indikator (Level) zu Beginn jeder Periode gleichzeitig der Indikator am Ende der vorherigen Periode. Dann kann der Durchschnittswert des Indikators für jeden Zeitraum (Intervall zwischen Daten) als Halbsumme der Werte berechnet werden beim zu Beginn und am Ende der Periode, d.h. als . Die Anzahl solcher Mittelwerte beträgt . Wie bereits erwähnt, wird bei Mittelwertreihen der Mittelwert aus dem arithmetischen Mittel berechnet.

Daher können wir schreiben:
.
Nach Umrechnung des Zählers erhalten wir:
,

wo Y1 und Yn- das erste und letzte Level der Serie; Yi- Zwischenstufen.

Dieser Durchschnitt wird in der Statistik als bezeichnet durchschnittlich chronologisch für Momentserien. Diesen Namen erhielt sie vom Wort „cronos“ (Zeit, lat.), da es sich aus sich im Laufe der Zeit ändernden Indikatoren errechnet.

Bei Ungleichheit Datumsintervallen kann der zeitliche Mittelwert für die Momentenreihe als arithmetisches Mittel der Mittelwerte der Pegel für jedes Momentenpaar berechnet werden, gewichtet mit den Abständen (Zeitintervallen) zwischen den Datumsangaben, d.h.
.
In diesem Fall Es wird angenommen, dass in den Intervallen zwischen den Daten die Pegel unterschiedliche Werte annahmen, und wir sind von zwei bekannten ( ja und ja+1) ermitteln wir die Durchschnittswerte, aus denen wir dann den Gesamtdurchschnitt für den gesamten analysierten Zeitraum berechnen.
Wenn davon ausgegangen wird, dass jeder Wert ja bleibt bis zum nächsten unverändert (i+ 1)- Moment, d.h. Ist das genaue Datum der Pegeländerung bekannt, kann die Berechnung nach der Formel des gewichteten arithmetischen Mittels erfolgen:
,

wo ist die Zeit, während der der Pegel unverändert blieb.

Neben dem durchschnittlichen Niveau in der Dynamikreihe werden auch andere durchschnittliche Indikatoren berechnet - die durchschnittliche Änderung der Niveaus der Reihe (Grund- und Kettenmethoden), die durchschnittliche Änderungsrate.

Basislinie bedeutet absolute Änderung ist der Quotient aus der letzten absoluten Grundänderung dividiert durch die Anzahl der Änderungen. Also

Kette bedeutet absolute Veränderung Ebenen einer Reihe ist der Quotient aus der Division der Summe aller absoluten Änderungen der Kette durch die Anzahl der Änderungen, d.h.

Anhand des Vorzeichens der durchschnittlichen absoluten Veränderungen wird im Durchschnitt auch die Art der Veränderung des Phänomens beurteilt: Wachstum, Niedergang oder Stabilität.

Aus der Regel zum Steuern der absoluten Grund- und Kettenänderungen folgt, dass die Grund- und Kettendurchschnittsänderungen gleich sein müssen.

Neben der durchschnittlichen absoluten Veränderung wird auch die durchschnittliche relative Veränderung nach der Basis- und der Kettenmethode berechnet.

Durchschnittliche relative Basisänderung wird durch die Formel bestimmt:

Kette bedeutet relative Änderung wird durch die Formel bestimmt:

Natürlich sollten die grundlegenden und kettendurchschnittlichen relativen Änderungen gleich sein, und durch Vergleich mit dem Kriteriumswert 1 wird eine Schlussfolgerung über die Art der Änderung des Phänomens im Durchschnitt gezogen: Wachstum, Rückgang oder Stabilität.
Durch Subtrahieren von 1 von der durchschnittlichen relativen Änderung der Basis oder Kette wird die entsprechende durchschnittliche Änderungsrate, anhand derer man auch die Art der Veränderung des untersuchten Phänomens beurteilen kann, die sich in dieser Reihe von Dynamiken widerspiegelt.

Saisonale Schwankungen und Saisonalitätsindizes.

Saisonale Schwankungen sind stabile unterjährige Schwankungen.

Das Grundprinzip, um die maximale Wirkung zu erzielen, ist die Maximierung der Einnahmen und Minimierung der Kosten. Durch die Untersuchung saisonaler Schwankungen wird das Problem der Maximumgleichung in jedem Niveau des Jahres gelöst.

Bei der Untersuchung saisonaler Schwankungen werden zwei zusammenhängende Aufgaben gelöst:

1. Identifizierung der Besonderheiten der Entwicklung des Phänomens in der innerjährlichen Dynamik;

2. Messung saisonaler Schwankungen mit dem Aufbau eines saisonalen Wellenmodells;

Saisonale Puten werden normalerweise gezählt, um die Saisonalität zu messen. Sie werden allgemein durch das Verhältnis der ursprünglichen Gleichungen einer Reihe von Dynamiken zu den theoretischen Gleichungen bestimmt, die als Vergleichsgrundlage dienen.

Da saisonale Schwankungen von zufälligen Abweichungen überlagert werden, werden Saisonindizes gemittelt, um sie zu eliminieren.

In diesem Fall werden für jede Periode des Jahreszyklus verallgemeinerte Indikatoren in Form von durchschnittlichen saisonalen Indizes bestimmt:

Durchschnittliche Indizes saisonaler Schwankungen sind frei von zufälligen Abweichungen des Hauptentwicklungstrends.

Abhängig von der Art des Trends kann die Formel für den durchschnittlichen Saisonalitätsindex die folgenden Formen annehmen:

1.Für Reihen von unterjährigen Dynamiken mit ausgeprägtem Hauptentwicklungstrend:

2. Für die Reihe der unterjährigen Dynamik, bei der es keinen Aufwärts- oder Abwärtstrend gibt oder die unbedeutend ist:

Wo ist der allgemeine Durchschnitt;

Methoden zur Analyse des Haupttrends.

Die zeitliche Entwicklung von Phänomenen wird durch Faktoren unterschiedlicher Art und Einflussstärke beeinflusst. Einige von ihnen sind zufälliger Natur, andere wirken fast konstant und bilden eine bestimmte Entwicklungsrichtung in der Reihe der Dynamiken.

Eine wichtige Aufgabe der Statistik besteht darin, einen Trend in der Dynamikreihe zu identifizieren, der von der Wirkung verschiedener Zufallsfaktoren befreit ist. Dazu werden die Zeitreihen mit den Methoden der Intervallvergrößerung, des gleitenden Mittelwerts und des analytischen Alignments usw. verarbeitet.

Intervallvergröberungsmethode basiert auf der Erweiterung von Zeiträumen, die die Ebenen einer Reihe von Dynamiken umfassen, d.h. ist das Ersetzen von Daten, die sich auf kleine Zeiträume beziehen, durch Daten aus größeren Zeiträumen. Dies ist besonders effektiv, wenn die Anfangspegel der Serie nur für kurze Zeiträume gelten. Beispielsweise werden Reihen von Indikatoren, die sich auf tägliche Ereignisse beziehen, durch Reihen ersetzt, die sich auf wöchentliche, monatliche usw. beziehen. Dies wird deutlicher zeigen "Achse der Entwicklung des Phänomens". Der auf Basis vergrößerter Intervalle berechnete Durchschnitt ermöglicht es, die Richtung und den Charakter (Wachstumsbeschleunigung oder -verlangsamung) des Hauptentwicklungstrends zu erkennen.

Methode des gleitenden Durchschnittsähnlich dem vorherigen, aber in diesem Fall werden die tatsächlichen Pegel durch durchschnittliche Pegel ersetzt, die für sich nacheinander bewegende (gleitende) vergrößerte Intervallabdeckungen berechnet wurden m Zeilenebenen.

zum Beispiel falls angenommen m=3, dann wird zuerst der Durchschnitt der ersten drei Stufen der Reihe berechnet, dann - aus der gleichen Anzahl von Stufen, aber beginnend mit der zweiten in Folge, dann - beginnend mit der dritten usw. Somit "gleitet" der Durchschnitt sozusagen entlang der Reihe von Dynamiken und bewegt sich für eine Periode. Berechnet aus m Mitglieder der gleitenden Durchschnitte beziehen sich auf die Mitte (Mitte) jedes Intervalls.

Dieses Verfahren eliminiert nur zufällige Schwankungen. Wenn die Reihe eine saisonale Welle hat, bleibt sie nach der Glättung durch die Methode des gleitenden Durchschnitts erhalten.

Analytische Ausrichtung. Um zufällige Schwankungen zu eliminieren und einen Trend zu erkennen, werden die Ebenen der Reihen nach analytischen Formeln (oder analytischer Ausrichtung) ausgerichtet. Sein Wesen besteht darin, empirische (tatsächliche) Niveaus durch theoretische zu ersetzen, die nach einer bestimmten Gleichung berechnet werden, die als mathematisches Modell des Trends verwendet wird, wobei theoretische Niveaus als Funktion der Zeit betrachtet werden: . In diesem Fall wird jedes tatsächliche Niveau als die Summe zweier Komponenten betrachtet: , wobei eine systematische Komponente ist und durch eine bestimmte Gleichung ausgedrückt wird, und eine Zufallsvariable ist, die Schwankungen um den Trend herum verursacht.

Die Aufgabe des analytischen Alignments ist wie folgt:

1. Bestimmung der Art der hypothetischen Funktion auf der Grundlage tatsächlicher Daten, die den Entwicklungstrend des untersuchten Indikators am besten widerspiegeln kann.

2. Finden der Parameter der spezifizierten Funktion (Gleichung) aus empirischen Daten

3. Berechnung nach der gefundenen Gleichung der theoretischen (nivellierten) Niveaus.

Die Auswahl einer bestimmten Funktion erfolgt in der Regel anhand einer graphischen Darstellung empirischer Daten.

Die Modelle sind Regressionsgleichungen, deren Parameter nach der Methode der kleinsten Quadrate berechnet werden

Im Folgenden sind die am häufigsten verwendeten Regressionsgleichungen zum Abgleich von Zeitreihen aufgeführt, die angeben, welche Entwicklungstrends sie am besten abbilden können.

Um die Parameter der obigen Gleichungen zu finden, gibt es spezielle Algorithmen und Computerprogramme. Um insbesondere die Parameter der Geradengleichung zu finden, kann der folgende Algorithmus verwendet werden:

Wenn die Perioden oder Zeitpunkte so nummeriert werden, dass St = 0 erhalten wird, werden die obigen Algorithmen erheblich vereinfacht und verwandeln sich in

Die ausgerichteten Ebenen auf dem Diagramm befinden sich auf einer geraden Linie, die in der geringsten Entfernung von den tatsächlichen Ebenen dieser dynamischen Reihe verläuft. Die Summe der quadrierten Abweichungen spiegelt den Einfluss zufälliger Faktoren wider.

Mit seiner Hilfe berechnen wir den durchschnittlichen (Standard-)Fehler der Gleichung:

Hier ist n die Anzahl der Beobachtungen und m die Anzahl der Parameter in der Gleichung (wir haben zwei davon - b 1 und b 0).

Der Haupttrend (Trend) zeigt, wie sich systematische Faktoren auf die Niveaus der Zeitreihe auswirken, und die Schwankung der Niveaus um den Trend herum () dient als Maß für den Einfluss von Residualfaktoren.

Zur Beurteilung der Qualität des verwendeten Zeitreihenmodells wird dieses ebenfalls herangezogen Fishers F-Test. Es ist das Verhältnis zweier Varianzen, nämlich das Verhältnis der durch die Regression verursachten Varianz, d.h. untersuchten Faktor, auf die durch zufällige Ursachen verursachte Streuung, d.h. Restabweichung:

In erweiterter Form lässt sich die Formel für dieses Kriterium wie folgt darstellen:

wobei n die Anzahl der Beobachtungen ist, d.h. Anzahl der Zeilenebenen,

m ist die Anzahl der Parameter in der Gleichung, y ist das tatsächliche Niveau der Reihe,

Ausgerichtete Höhe der Reihe, - die durchschnittliche Höhe der Reihe.

Das Modell ist erfolgreicher als andere und möglicherweise nicht immer ausreichend zufriedenstellend. Es kann nur dann als solches erkannt werden, wenn das Kriterium F dafür eine bestimmte kritische Grenze überschreitet. Diese Grenze wird unter Verwendung von F-Verteilungstabellen festgelegt.

Wesen und Klassifizierung von Indizes.

Unter einem Index in der Statistik versteht man einen relativen Indikator, der die Veränderung der Größe eines Phänomens in Zeit, Raum oder im Vergleich zu einem beliebigen Standard charakterisiert.

Das Hauptelement der Indexrelation ist der indizierte Wert. Unter einem indizierten Wert versteht man den Wert eines Vorzeichens einer statistischen Grundgesamtheit, deren Veränderung Gegenstand der Untersuchung ist.

Indizes dienen drei Hauptzwecken:

1) Bewertung von Veränderungen in einem komplexen Phänomen;

2) Bestimmung des Einflusses einzelner Faktoren auf die Veränderung eines komplexen Phänomens;

3) Vergleich der Größe eines Phänomens mit der Größe der vergangenen Periode, der Größe eines anderen Territoriums sowie mit Standards, Plänen, Prognosen.

Indizes werden nach 3 Kriterien klassifiziert:

2) nach dem Deckungsgrad der Bevölkerungselemente;

3) nach Methoden zur Berechnung allgemeiner Indizes.

Nach Inhalt von indexierten Werten werden die Indizes in Indizes für quantitative (volumetrische) Indikatoren und Indizes für qualitative Indikatoren unterteilt. Indizes quantitativer Indikatoren - Indizes des physischen Volumens der Industrieproduktion, des physischen Verkaufsvolumens, der Anzahl usw. Indizes qualitativer Indikatoren - Indizes der Preise, Kosten, Arbeitsproduktivität, Durchschnittslöhne usw.

Je nach Erfassungsgrad der Bevölkerungseinheiten werden die Indizes in zwei Klassen eingeteilt: individuell und allgemein. Um sie zu charakterisieren, führen wir die folgenden Konventionen ein, die in der Praxis der Anwendung der Indexmethode angenommen wurden:

q- Menge (Volumen) jeglicher Sachleistungen ; R- Stückpreis der Produktion; z- Produktionsstückkosten; t- Zeitaufwand für die Produktion einer Produktionseinheit (Arbeitsintensität) ; w- Produktionsleistung als Wert pro Zeiteinheit; v- physikalische Leistung pro Zeiteinheit; T- Gesamtzeitaufwand oder Anzahl der Mitarbeiter.

Um zu unterscheiden, zu welchem ​​Zeitraum oder Objekt die indizierten Werte gehören, ist es üblich, tiefgestellte Indizes nach dem entsprechenden Symbol unten rechts zu setzen. So wird beispielsweise in den Dynamikindizes in der Regel für die verglichenen (aktuellen Berichts-)Zeiträume der Index 1 verwendet und für die Zeiträume, mit denen der Vergleich durchgeführt wird,

Einzelne Indizes dienen dazu, die Veränderung einzelner Elemente eines komplexen Phänomens zu charakterisieren (z. B. eine Veränderung des Produktionsvolumens einer Produktart). Sie repräsentieren die relativen Werte der Dynamik, Erfüllung von Verpflichtungen, Vergleich von indizierten Werten.

Der individuelle Index des physischen Produktionsvolumens wird ermittelt

Aus analytischer Sicht ähneln die angegebenen individuellen Dynamikindizes den Wachstumskoeffizienten (Wachstumsraten) und charakterisieren die Veränderung des indexierten Werts in der aktuellen Periode im Vergleich zum Basiswert, d.h. zeigen, wie oft er gestiegen (gesunken) ist ) oder wie viel Prozent es Wachstum (Abnahme) ist. Indexwerte werden in Koeffizienten oder Prozentsätzen ausgedrückt.

Allgemeiner (zusammengesetzter) Index spiegelt die Veränderung aller Elemente eines komplexen Phänomens wider.

Aggregierter Index ist die Grundform des Index. Es wird Aggregat genannt, weil sein Zähler und Nenner eine Menge von „Aggregat“ sind.

Durchschnittliche Indizes, ihre Definition.

Neben aggregierten Indizes wird in der Statistik eine andere Form von Indizes verwendet - gewichtete Durchschnittsindizes. Auf ihre Berechnung wird zurückgegriffen, wenn die verfügbaren Informationen die Berechnung des allgemeinen Gesamtindex nicht zulassen. Wenn also keine Preisdaten vorliegen, aber Informationen über die Kosten der Produkte im aktuellen Zeitraum und individuelle Preisindizes für jedes Produkt bekannt sind, kann der allgemeine Preisindex nicht als aggregierter bestimmt werden, aber es ist möglich um es als Durchschnitt einzelner zu berechnen. Sind die produzierten Mengen einzelner Produkte nicht bekannt, aber die einzelnen Indizes und die Produktionskosten des Basiszeitraums, so kann der Gesamtindex der physischen Produktionsmenge als gewichteter Durchschnitt ermittelt werden.

Durchschnittlicher Index - Das ein Index, der als Durchschnitt einzelner Indizes berechnet wird. Der Gesamtindex ist die Grundform des Gesamtindex, daher muss der Durchschnittsindex mit dem Gesamtindex identisch sein. Bei der Berechnung von Durchschnittsindizes werden zwei Formen von Durchschnittswerten verwendet: arithmetisch und harmonisch.

Der arithmetische Mittelwert des Index ist identisch mit dem Gesamtindex, wenn die Gewichte der einzelnen Indizes die Laufzeiten des Nenners des Gesamtindex sind. Nur in diesem Fall entspricht der nach der arithmetischen Mittelformel berechnete Wert des Index dem Gesamtindex.

Beim statistischen Testen von Hypothesen, beim Messen eines linearen Zusammenhangs zwischen Zufallsvariablen.

Standardabweichung:

Standardabweichung(eine Schätzung der Standardabweichung der Zufallsvariablen Boden, Wände um uns herum und die Decke, x relativ zu seiner mathematischen Erwartung basierend auf einer unverzerrten Schätzung seiner Varianz):

wo - Abweichung; - Der Boden, die Wände um uns herum und die Decke, ich-tes Probenelement; - Stichprobengröße; - arithmetisches Mittel der Stichprobe:

Es ist zu beachten, dass beide Schätzungen verzerrt sind. Im allgemeinen Fall ist es unmöglich, eine unverzerrte Schätzung zu erstellen. Eine Schätzung, die auf einer unverzerrten Varianzschätzung basiert, ist jedoch konsistent.

Drei-Sigma-Regel

Drei-Sigma-Regel() - fast alle Werte einer normalverteilten Zufallsvariablen liegen im Intervall . Genauer gesagt – mit nicht weniger als 99,7 % Sicherheit liegt der Wert einer normalverteilten Zufallsvariablen im angegebenen Intervall (vorausgesetzt, der Wert ist wahr und wird nicht als Ergebnis einer Stichprobenverarbeitung erhalten).

Wenn der wahre Wert unbekannt ist, dann sollten Sie nicht verwenden, sondern den Boden, die Wände um uns herum und die Decke, s. So wird die Drei-Sigma-Regel in die Drei-Regel übersetzt: Boden, Wände um uns herum und die Decke, s .

Interpretation des Werts der Standardabweichung

Ein großer Wert der Standardabweichung zeigt eine große Streuung der Werte in der präsentierten Menge mit dem Durchschnittswert der Menge; ein kleiner Wert zeigt an, dass die Werte in der Menge um den Durchschnittswert herum gruppiert sind.

Zum Beispiel haben wir drei Zahlensätze: (0, 0, 14, 14), (0, 6, 8, 14) und (6, 6, 8, 8). Alle drei Sätze haben Mittelwerte von 7 und Standardabweichungen von 7, 5 bzw. 1. Der letzte Satz hat eine kleine Standardabweichung, weil die Werte im Satz um den Mittelwert gruppiert sind; der erste Satz hat den größten Wert der Standardabweichung – die Werte innerhalb des Satzes weichen stark vom Mittelwert ab.

Allgemein kann die Standardabweichung als Unsicherheitsmaß angesehen werden. Beispielsweise wird in der Physik die Standardabweichung verwendet, um den Fehler einer Reihe aufeinanderfolgender Messungen einer bestimmten Größe zu bestimmen. Dieser Wert ist sehr wichtig, um die Plausibilität des untersuchten Phänomens im Vergleich zu dem von der Theorie vorhergesagten Wert zu bestimmen: Wenn der Mittelwert der Messungen stark von den von der Theorie vorhergesagten Werten abweicht (große Standardabweichung), dann die Die erhaltenen Werte oder die Methode zu deren Gewinnung sollten erneut überprüft werden.

Praktischer Nutzen

In der Praxis lässt sich anhand der Standardabweichung feststellen, wie stark die Werte in der Menge vom Durchschnittswert abweichen können.

Klima

Angenommen, es gibt zwei Städte mit der gleichen durchschnittlichen Tageshöchsttemperatur, aber eine liegt an der Küste und die andere im Landesinneren. Es ist bekannt, dass Küstenstädte viele verschiedene Tageshöchsttemperaturen haben, die niedriger sind als Städte im Landesinneren. Daher ist die Standardabweichung der maximalen Tagestemperaturen in der Küstenstadt geringer als in der zweiten Stadt, obwohl der Durchschnittswert dieses Werts für sie gleich ist, was in der Praxis bedeutet, dass die Wahrscheinlichkeit, dass die maximale Luft Die Temperatur jedes einzelnen Tages des Jahres wird stärker vom Durchschnittswert abweichen, höher für eine Stadt innerhalb des Kontinents.

Sport

Nehmen wir an, dass es mehrere Fußballmannschaften gibt, die nach bestimmten Parametern eingestuft werden, z. B. Anzahl der erzielten und kassierten Tore, Torchancen usw. Es ist sehr wahrscheinlich, dass die beste Mannschaft in dieser Gruppe die beste hat Werte in mehr Parametern. Je kleiner die Standardabweichung des Teams für jeden der dargestellten Parameter ist, desto vorhersehbarer ist das Ergebnis des Teams, solche Teams sind ausgeglichen. Andererseits hat ein Team mit einer großen Standardabweichung Schwierigkeiten, das Ergebnis vorherzusagen, was wiederum durch ein Ungleichgewicht erklärt wird, beispielsweise eine starke Verteidigung, aber ein schwacher Angriff.

Die Verwendung der Standardabweichung der Parameter des Teams ermöglicht es, das Ergebnis des Spiels zwischen zwei Teams bis zu einem gewissen Grad vorherzusagen, die Stärken und Schwächen der Teams und damit die gewählten Kampfmethoden zu bewerten.

Technische Analyse

siehe auch

Literatur

* Borovikov, V. STATISTIKEN. Die Kunst der Computerdatenanalyse: Für Profis / V. Borovikov. - St. Petersburg. : Peter, 2003. - 688 S. -ISBN 5-272-00078-1.