Definition einer Variantenserie. Variationsreihen und ihre Eigenschaften

Variationsreihe ist eine Reihe von numerischen Werten eines Merkmals.

Die Hauptmerkmale der Variationsreihe: v - Variante, p - die Häufigkeit ihres Auftretens.

Arten von Variationsreihen:

    nach der Häufigkeit des Auftretens von Varianten: einfach - die Variante kommt einmal vor, gewichtet - die Variante kommt zwei- oder mehrmals vor;

    Optionen nach Ort: geordnet – Optionen sind in absteigender und aufsteigender Reihenfolge angeordnet, nicht geordnet – Optionen werden in keiner bestimmten Reihenfolge geschrieben;

    durch Gruppieren der Option in Gruppen: gruppiert – Optionen werden in Gruppen zusammengefasst, nicht gruppiert – Optionen werden nicht gruppiert;

    nach Wert Optionen: kontinuierlich – Optionen werden als ganze Zahl und als Bruchzahl ausgedrückt, diskret – Optionen werden als ganze Zahl ausgedrückt, komplex – Optionen werden durch einen relativen oder durchschnittlichen Wert dargestellt.

Zur Berechnung von Durchschnittswerten wird eine Variationsreihe zusammengestellt und erstellt.

Notationsform für Variationsserien:

8. Mittelwerte, Typen, Berechnungsverfahren, Anwendung im Gesundheitswesen

Durchschnittliche Werte- das gesamte verallgemeinernde Merkmal quantitativer Merkmale. Anwendung von Durchschnittswerten:

1. Um die Organisation der Arbeit medizinischer Einrichtungen zu charakterisieren und ihre Aktivitäten zu bewerten:

a) in der Poliklinik: Indikatoren für die Arbeitsbelastung der Ärzte, die durchschnittliche Anzahl der Besuche, die durchschnittliche Anzahl der Einwohner in der Region;

b) in einem Krankenhaus: durchschnittliche Zahl der Betttage pro Jahr; durchschnittliche Verweildauer im Krankenhaus;

c) im Zentrum für Hygiene, Epidemiologie und öffentliche Gesundheit: durchschnittliche Fläche (oder Kubikkapazität) pro 1 Person, durchschnittliche Ernährungsstandards (Proteine, Fette, Kohlenhydrate, Vitamine, Mineralsalze, Kalorien), Hygienenormen und -standards usw.;

2. Um die körperliche Entwicklung zu charakterisieren (die wichtigsten anthropometrischen Merkmale von morphologischen und funktionellen);

3. Bestimmung der medizinischen und physiologischen Parameter des Körpers unter normalen und pathologischen Bedingungen in klinischen und experimentellen Studien.

4. In der speziellen wissenschaftlichen Forschung.

Der Unterschied zwischen Durchschnittswerten und Indikatoren:

1. Die Koeffizienten charakterisieren ein alternatives Merkmal, das nur in einem Teil des Statistikteams auftritt, das auftreten kann oder nicht.

Durchschnittswerte decken die Anzeichen ab, die allen Teammitgliedern innewohnen, jedoch in unterschiedlichem Maße (Gewicht, Größe, Behandlungstage im Krankenhaus).

2. Koeffizienten werden verwendet, um qualitative Merkmale zu messen. Durchschnittswerte gelten für unterschiedliche quantitative Merkmale.

Arten von Durchschnitten:

    arithmetisches Mittel, seine Eigenschaften - Standardabweichung und durchschnittlicher Fehler

    Modus und Median. Mode (Mo)- entspricht dem Wert des Merkmals, das in dieser Population am häufigsten vorkommt. Median (ich)- der Wert des Attributs, das den Medianwert in dieser Grundgesamtheit einnimmt. Es teilt die Reihe entsprechend der Anzahl der Beobachtungen in 2 gleiche Teile. Arithmetischer Mittelwert (M)- Anders als der Modus und der Median stützt er sich auf alle gemachten Beobachtungen und ist daher ein wichtiges Merkmal für die gesamte Verteilung.

    andere Arten von Durchschnittswerten, die in speziellen Studien verwendet werden: quadratischer Mittelwert, kubisch, harmonisch, geometrisch, progressiv.

Arithmetisches Mittel kennzeichnet das durchschnittliche Niveau der statistischen Grundgesamtheit.

Für eine einfache Serie wo

∑v – Summenoption,

n ist die Anzahl der Beobachtungen.

für eine gewichtete Reihe, wo

∑vr ist die Summe der Produkte jeder Option und der Häufigkeit ihres Auftretens

n ist die Anzahl der Beobachtungen.

Standardabweichung arithmetisches Mittel oder Sigma (σ) charakterisiert die Diversität des Merkmals

- für eine einfache Reihe

Σd 2 - die Summe der Quadrate der Differenz zwischen dem arithmetischen Mittel und jeder Option (d = │M-V│)

n ist die Anzahl der Beobachtungen

- für gewichtete Reihen

∑d 2 p ist die Summe der Produkte der Quadrate der Differenz zwischen dem arithmetischen Mittel und jeder Option und der Häufigkeit ihres Auftretens,

n ist die Anzahl der Beobachtungen.

Der Grad der Diversität kann durch den Wert des Variationskoeffizienten beurteilt werden
. Mehr als 20 % - starke Vielfalt, 10-20 % - mittlere Vielfalt, weniger als 10 % - schwache Vielfalt.

Wenn ein Sigma (M ± 1σ) zum arithmetischen Mittel addiert und davon subtrahiert wird, liegen bei einer Normalverteilung mindestens 68,3 % aller Varianten (Beobachtungen) innerhalb dieser Grenzen, was als Norm für das untersuchte Phänomen gilt . Wenn k 2 ± 2σ ist, liegen 95,5 % aller Beobachtungen innerhalb dieser Grenzen, und wenn k M ± 3 σ ist, dann liegen 99,7 % aller Beobachtungen innerhalb dieser Grenzen. Somit ist die Standardabweichung die Standardabweichung, die es ermöglicht, die Wahrscheinlichkeit des Auftretens eines solchen Wertes des untersuchten Merkmals vorherzusagen, der innerhalb der angegebenen Grenzen liegt.

Mittlerer Fehler des arithmetischen Mittels oder Repräsentativitätsfehler. Für einfache, gewichtete Reihen und nach der Momentenregel:

.

Um die Durchschnittswerte zu berechnen, ist es notwendig: die Homogenität des Materials, eine ausreichende Anzahl von Beobachtungen. Wenn die Anzahl der Beobachtungen weniger als 30 beträgt, wird n-1 in den Formeln zur Berechnung von σ und m verwendet.

Bei der Bewertung des durch die Größe des durchschnittlichen Fehlers erhaltenen Ergebnisses wird ein Konfidenzkoeffizient verwendet, der es ermöglicht, die Wahrscheinlichkeit einer richtigen Antwort zu bestimmen, dh er zeigt an, dass der erhaltene Wert des Stichprobenfehlers nicht größer sein wird als der tatsächliche Fehler, der als Ergebnis einer kontinuierlichen Beobachtung gemacht wird. Folglich steigt mit zunehmender Konfidenzwahrscheinlichkeit die Breite des Konfidenzintervalls, was wiederum die Konfidenz des Urteils, die Stützung des erhaltenen Ergebnisses, erhöht.

Ein besonderer Platz in der statistischen Analyse gehört der Bestimmung des durchschnittlichen Niveaus des untersuchten Merkmals oder Phänomens. Das durchschnittliche Niveau eines Features wird durch Durchschnittswerte gemessen.

Der Durchschnittswert charakterisiert das allgemeine quantitative Niveau des untersuchten Merkmals und ist eine Gruppeneigenschaft der statistischen Grundgesamtheit. Es nivelliert, schwächt die zufälligen Abweichungen einzelner Beobachtungen in die eine oder andere Richtung ab und hebt die hauptsächliche, typische Eigenschaft des untersuchten Merkmals hervor.

Durchschnitte sind weit verbreitet:

1. Для оценки состояния здоровья населения: характеристики физического развития (рост, вес, окружность грудной клетки и пр.), выявления распространенности и длительности различных заболеваний, анализа демографических показателей (естественного движения населения, средней продолжительности предстоящей жизни, воспроизводства населения, средней численности населения usw.).

2. Untersuchung der Aktivitäten medizinischer Einrichtungen, medizinischen Personals und Bewertung der Qualität ihrer Arbeit, Planung und Ermittlung der Bedürfnisse der Bevölkerung in verschiedenen Arten der medizinischen Versorgung (durchschnittliche Anzahl von Anfragen oder Besuchen pro Einwohner und Jahr, durchschnittliche Aufenthaltsdauer). eines Patienten in einem Krankenhaus, durchschnittliche Untersuchungsdauer des Patienten, durchschnittliche Versorgung mit Ärzten, Betten usw.).

3. Charakterisierung des hygienischen und epidemiologischen Zustands (durchschnittliche Staubigkeit der Luft in der Werkstatt, durchschnittliche Fläche pro Person, durchschnittlicher Verbrauch an Proteinen, Fetten und Kohlenhydraten usw.).

4. Bestimmung der medizinischen und physiologischen Parameter in Norm und Pathologie bei der Verarbeitung von Labordaten zur Feststellung der Zuverlässigkeit der Ergebnisse einer selektiven Studie in sozialhygienischen, klinischen, experimentellen Studien.

Die Berechnung der Durchschnittswerte erfolgt auf Basis von Variationsreihen. Variationsreihe- Dies ist ein qualitativ homogener statistischer Satz, dessen einzelne Einheiten die quantitativen Unterschiede des untersuchten Merkmals oder Phänomens charakterisieren.

Quantitative Schwankungen können zweierlei Art sein: diskontinuierlich (diskret) und kontinuierlich.

Ein diskontinuierliches (diskretes) Zeichen wird nur als ganze Zahl ausgedrückt und kann keine Zwischenwerte haben (z. B. die Anzahl der Besuche, die Bevölkerung des Standorts, die Anzahl der Kinder in der Familie, die Schwere der Krankheit in Punkten). , etc.).

Ein kontinuierliches Zeichen kann innerhalb bestimmter Grenzen beliebige Werte annehmen, einschließlich Bruchzahlen, und wird nur ungefähr ausgedrückt (z. B. Gewicht - für Erwachsene kann es auf Kilogramm und für Neugeborene - Gramm begrenzt werden; Größe, Blutdruck, Zeit Ausgaben für die Behandlung eines Patienten usw.).



Der digitale Wert jedes einzelnen Merkmals oder Phänomens, das in der Variationsreihe enthalten ist, wird als Variante bezeichnet und wird durch den Buchstaben angezeigt v . Es gibt zum Beispiel auch andere Notationen in der mathematischen Literatur x oder j.

Eine Variationsreihe, bei der jede Option einmal angegeben ist, heißt einfach. Solche Reihen werden bei den meisten statistischen Problemen im Fall der Computerdatenverarbeitung verwendet.

Mit zunehmender Anzahl von Beobachtungen gibt es in der Regel wiederholte Werte der Variante. In diesem Fall erstellt es gruppierte Variationsreihe, wobei die Anzahl der Wiederholungen angegeben ist (Frequenz, gekennzeichnet durch den Buchstaben " R »).

Ranglisten-Variationsserie besteht aus Optionen, die in aufsteigender oder absteigender Reihenfolge angeordnet sind. Sowohl einfache als auch gruppierte Serien können mit Rangfolge zusammengestellt werden.

Serie von Intervallvariationen werden gemacht, um spätere Berechnungen zu vereinfachen, die ohne Verwendung eines Computers durchgeführt werden, mit einer sehr großen Anzahl von Beobachtungseinheiten (mehr als 1000).

Kontinuierliche Variationsreihe enthält Variantenwerte, die ein beliebiger Wert sein können.

Wenn in der Variationsserie die Werte des Attributs (Optionen) in Form von separaten spezifischen Nummern angegeben sind, wird eine solche Serie aufgerufen diskret.

Die allgemeinen Merkmale der Werte des Attributs, die sich in der Variationsreihe widerspiegeln, sind die Durchschnittswerte. Unter ihnen sind die am häufigsten verwendeten: das arithmetische Mittel M, Mode Mo und Median mich. Jede dieser Eigenschaften ist einzigartig. Sie können einander nicht ersetzen, und nur in der Summe, ganz vollständig und in knapper Form, sind die Merkmale der Variationsreihe.

Mode (Mo) Nennen Sie den Wert der am häufigsten vorkommenden Optionen.

Median (mich) ist der Wert der Variante, die die Reihe der Variationsreihen halbiert (auf jeder Seite des Medians gibt es eine Hälfte der Variante). In seltenen Fällen sind bei einer symmetrischen Variationsreihe Modus und Median gleich und stimmen mit dem Wert des arithmetischen Mittels überein.

Das typischste Merkmal von Variantenwerten ist arithmetisches Mittel Wert( M ). In der mathematischen Literatur wird es bezeichnet .

Arithmetisches Mittel (M, ) ist ein allgemeines quantitatives Merkmal eines bestimmten Merkmals der untersuchten Phänomene, die ein qualitativ homogenes statistisches Aggregat bilden. Unterscheiden Sie zwischen dem einfachen arithmetischen Mittel und dem gewichteten Mittel. Das einfache arithmetische Mittel wird für eine einfache Variationsreihe berechnet, indem alle Optionen summiert und diese Summe durch die Gesamtzahl der in dieser Variationsreihe enthaltenen Optionen geteilt wird. Berechnungen werden nach der Formel durchgeführt:

,

wo: M - einfaches arithmetisches Mittel;

Σ v - Betragsoption;

n- Anzahl der Beobachtungen.

In den gruppierten Variationsreihen wird ein gewichtetes arithmetisches Mittel gebildet. Die Formel für seine Berechnung:

,

wo: M - arithmetisch gewichteter Durchschnitt;

Σ vp - die Summe der Produkte einer Variante nach ihren Häufigkeiten;

n- Anzahl der Beobachtungen.

Bei einer großen Anzahl von Beobachtungen bei manuellen Berechnungen kann die Momentenmethode verwendet werden.

Das arithmetische Mittel hat folgende Eigenschaften:

die Summe der Abweichungen der Variante vom Mittelwert ( Σ d ) gleich Null ist (siehe Tabelle 15);

Bei der Multiplikation (Division) aller Optionen mit demselben Faktor (Divisor) wird das arithmetische Mittel mit demselben Faktor (Divisor) multipliziert (dividiert);

Wenn Sie zu allen Optionen dieselbe Zahl addieren (subtrahieren), erhöht (verringert) sich das arithmetische Mittel um dieselbe Zahl.

Arithmetische Mittelwerte, die für sich genommen genommen werden, ohne die Variabilität der Reihen zu berücksichtigen, aus denen sie berechnet werden, spiegeln die Eigenschaften der Variationsreihe möglicherweise nicht vollständig wider, insbesondere wenn ein Vergleich mit anderen Mittelwerten erforderlich ist. Wertnahe Mittelwerte können aus Reihen mit unterschiedlicher Streuung gewonnen werden. Je näher die einzelnen Optionen hinsichtlich ihrer quantitativen Eigenschaften beieinander liegen, desto weniger Streuung (Fluktuation, Variabilität) Serie, desto typischer sein Durchschnitt.

Die Hauptparameter, die es ermöglichen, die Variabilität eines Merkmals zu beurteilen, sind:

· Umfang;

Amplitude;

· Standardabweichung;

· Der Variationskoeffizient.

Annäherungsweise kann die Schwankung eines Merkmals anhand des Umfangs und der Amplitude der Variationsreihe beurteilt werden. Der Bereich gibt die maximalen (V max) und minimalen (V min) Optionen in der Serie an. Die Amplitude (Am) ist die Differenz zwischen diesen Optionen: Am = Vmax – Vmin.

Das wichtigste, allgemein akzeptierte Maß für die Fluktuation der Variationsreihe sind Streuung (D ). Am häufigsten wird jedoch der bequemere Parameter verwendet, der auf der Grundlage der Varianz berechnet wird - die Standardabweichung ( σ ). Es berücksichtigt den Abweichungswert ( d ) jeder Variante der Variationsreihe aus ihrem arithmetischen Mittel ( d=V - M ).

Da die Abweichungen der Variante vom Mittelwert positiv und negativ sein können, ergeben sie summiert den Wert „0“ (S d=0). Um dies zu vermeiden, werden die Abweichungswerte ( d) werden in die zweite Potenz erhoben und gemittelt. Somit ist die Varianz der Variationsreihe das durchschnittliche Quadrat der Abweichungen der Variante vom arithmetischen Mittel und wird nach der Formel berechnet:

.

Es ist das wichtigste Merkmal der Variabilität und wird zur Berechnung vieler statistischer Tests verwendet.

Da die Varianz als Quadrat der Abweichungen ausgedrückt wird, kann ihr Wert nicht im Vergleich zum arithmetischen Mittel verwendet werden. Für diese Zwecke wird es verwendet Standardabweichung, was mit dem Zeichen "Sigma" bezeichnet wird ( σ ). Er kennzeichnet die durchschnittliche Abweichung aller Varianten der Variationsreihe vom arithmetischen Mittel in denselben Einheiten wie der Mittelwert selbst, sodass sie gemeinsam verwendet werden können.

Die Standardabweichung wird durch die Formel bestimmt:

Diese Formel wird für die Anzahl der Beobachtungen ( n ) ist größer als 30. Mit einer kleineren Zahl n Der Wert der Standardabweichung weist einen Fehler auf, der mit der mathematischen Abweichung ( n - eines). In dieser Hinsicht kann ein genaueres Ergebnis erzielt werden, indem eine solche Verzerrung in der Formel zur Berechnung der Standardabweichung berücksichtigt wird:

Standardabweichung (s ) ist eine Schätzung der Standardabweichung der Zufallsvariablen X relativ zu seiner mathematischen Erwartung basierend auf einer unvoreingenommenen Schätzung seiner Varianz.

Für Werte n > 30 Standardabweichung ( σ ) und Standardabweichung ( s ) wird dasselbe sein ( σ=s ). Daher werden diese Kriterien in den meisten praktischen Handbüchern mit unterschiedlichen Bedeutungen behandelt. In Excel kann die Berechnung der Standardabweichung mit der Funktion =STDEV(range) erfolgen. Und um die Standardabweichung zu berechnen, müssen Sie eine entsprechende Formel erstellen.

Mit dem quadratischen Mittelwert oder der Standardabweichung können Sie bestimmen, wie stark die Werte eines Merkmals vom Mittelwert abweichen können. Angenommen, es gibt zwei Städte mit der gleichen durchschnittlichen Tagestemperatur im Sommer. Eine dieser Städte liegt an der Küste, die andere auf dem Kontinent. Es ist bekannt, dass in Städten an der Küste die Unterschiede der Tagestemperaturen geringer sind als in Städten im Landesinneren. Daher ist die Standardabweichung der Tagestemperaturen in der Nähe der Küstenstadt geringer als die der zweiten Stadt. In der Praxis bedeutet dies, dass die durchschnittliche Lufttemperatur eines jeden Tages in einer Stadt auf dem Kontinent stärker vom Durchschnittswert abweicht als in einer Stadt an der Küste. Zusätzlich ermöglicht die Standardabweichung, mögliche Temperaturabweichungen vom Mittelwert mit der erforderlichen Wahrscheinlichkeit abzuschätzen.

Nach der Wahrscheinlichkeitstheorie besteht bei Phänomenen, die dem Normalverteilungsgesetz gehorchen, eine strenge Beziehung zwischen den Werten des arithmetischen Mittels, der Standardabweichung und der Optionen ( Drei-Sigma-Regel). Beispielsweise liegen 68,3 % der Werte eines Variablenattributs innerhalb von M ± 1 σ , 95,5 % - innerhalb von M ± 2 σ und 99,7 % - innerhalb von M ± 3 σ .

Der Wert der Standardabweichung ermöglicht eine Beurteilung der Art der Homogenität der Variationsreihe und der untersuchten Gruppe. Wenn der Wert der Standardabweichung klein ist, deutet dies auf eine ausreichend hohe Homogenität des untersuchten Phänomens hin. Das arithmetische Mittel sollte in diesem Fall als durchaus charakteristisch für diese Variationsreihe anerkannt werden. Ein zu kleines Sigma lässt jedoch an eine künstliche Auswahl von Beobachtungen denken. Bei einem sehr großen Sigma charakterisiert das arithmetische Mittel die Variationsreihe weniger stark, was auf eine signifikante Variabilität des untersuchten Merkmals oder Phänomens oder die Heterogenität der Studiengruppe hinweist. Ein Vergleich des Wertes der Standardabweichung ist jedoch nur für Vorzeichen gleicher Dimension möglich. In der Tat, wenn wir die Gewichtsunterschiede von Neugeborenen und Erwachsenen vergleichen, werden wir bei Erwachsenen immer höhere Sigma-Werte erhalten.

Ein Vergleich der Variabilität von Merkmalen unterschiedlicher Dimensionen kann mit durchgeführt werden Variationskoeffizient. Er drückt die Diversität als Prozentsatz des Mittelwerts aus, was einen Vergleich verschiedener Merkmale ermöglicht. Der Variationskoeffizient wird in der medizinischen Literatur durch das Zeichen " AUS ", und in der mathematischen " v» und berechnet nach der Formel:

.

Die Werte des Variationskoeffizienten unter 10 % deuten auf eine geringe Streuung hin, von 10 bis 20 % – etwa auf den Mittelwert, über 20 % – auf eine starke Streuung um den arithmetischen Mittelwert.

Der arithmetische Mittelwert wird in der Regel auf Basis von Stichprobendaten berechnet. Bei wiederholten Studien unter dem Einfluss von Zufallsphänomenen kann sich das arithmetische Mittel ändern. Dies liegt daran, dass in der Regel nur ein Teil der möglichen Betrachtungseinheiten, also eine Stichprobenpopulation, untersucht wird. Informationen über alle möglichen Einheiten, die das untersuchte Phänomen repräsentieren, können durch die Untersuchung der gesamten Allgemeinbevölkerung gewonnen werden, was nicht immer möglich ist. Gleichzeitig ist zur Verallgemeinerung der experimentellen Daten der Wert des Durchschnitts in der Allgemeinbevölkerung von Interesse. Um eine allgemeine Aussage über das untersuchte Phänomen zu formulieren, müssen daher die Ergebnisse, die auf der Grundlage der Stichprobenpopulation gewonnen wurden, mit statistischen Methoden auf die Allgemeinbevölkerung übertragen werden.

Um den Grad der Übereinstimmung zwischen der Stichprobenstudie und der Allgemeinbevölkerung zu bestimmen, ist es notwendig, den Fehlerbetrag abzuschätzen, der bei der Stichprobenbeobachtung zwangsläufig entsteht. Ein solcher Fehler wird aufgerufen Repräsentativitätsfehler“ oder „mittlerer Fehler des arithmetischen Mittels“. Es ist in der Tat die Differenz zwischen den Durchschnittswerten, die aus einer selektiven statistischen Beobachtung erhalten wurden, und ähnlichen Werten, die aus einer kontinuierlichen Untersuchung desselben Objekts erhalten würden, d.h. beim Studium der Allgemeinbevölkerung. Da es sich bei dem Stichprobenmittelwert um eine Zufallsvariable handelt, erfolgt eine solche Prognose mit einer für den Forscher akzeptablen Wahrscheinlichkeit. In der medizinischen Forschung sind es mindestens 95 %.

Der Repräsentativitätsfehler sollte nicht mit Registrierungsfehlern oder Aufmerksamkeitsfehlern (Druckfehler, Rechenfehler, Druckfehler usw.) verwechselt werden, die durch eine angemessene Methodik und im Experiment verwendete Werkzeuge minimiert werden sollten.

Die Größe des Repräsentativitätsfehlers hängt sowohl von der Stichprobengröße als auch von der Variabilität des Merkmals ab. Je größer die Anzahl der Beobachtungen, desto näher die Stichprobe an der Allgemeinbevölkerung und desto kleiner der Fehler. Je variabler das Merkmal ist, desto größer ist der statistische Fehler.

In der Praxis wird zur Ermittlung des Repräsentativitätsfehlers in Variationsreihen folgende Formel verwendet:

,

wo: m – Repräsentativitätsfehler;

σ - Standardabweichung;

n ist die Anzahl der Beobachtungen in der Stichprobe.

Aus der Formel ist ersichtlich, dass die Größe des durchschnittlichen Fehlers direkt proportional zur Standardabweichung ist, d. h. der Variabilität des untersuchten Merkmals, und umgekehrt proportional zur Quadratwurzel der Anzahl der Beobachtungen.

Bei der Durchführung statistischer Analysen auf Basis der Berechnung relativer Werte ist der Aufbau einer Variationsreihe nicht zwingend erforderlich. In diesem Fall kann die Bestimmung des durchschnittlichen Fehlers für relative Indikatoren mit einer vereinfachten Formel durchgeführt werden:

,

wo: R- der Wert des relativen Indikators, ausgedrückt in Prozent, ppm usw.;

q- der Kehrwert von P und ausgedrückt als (1-P), (100-P), (1000-P) usw., je nach Berechnungsgrundlage des Indikators;

n ist die Anzahl der Beobachtungen in der Stichprobe.

Die angegebene Formel zur Berechnung des Repräsentativitätsfehlers für relative Werte kann jedoch nur angewendet werden, wenn der Wert des Indikators kleiner als seine Basis ist. In einer Reihe von Fällen, in denen intensive Indikatoren berechnet werden, ist diese Bedingung nicht erfüllt, und der Indikator kann als Zahl von mehr als 100 % oder 1000 %o ausgedrückt werden. In einer solchen Situation wird eine Variationsreihe konstruiert und der Repräsentativitätsfehler mit der Formel für Mittelwerte auf Basis der Standardabweichung berechnet.

Die Vorhersage des Wertes des arithmetischen Mittels in der Allgemeinbevölkerung erfolgt unter Angabe von zwei Werten - dem Minimum und dem Maximum. Diese Extremwerte möglicher Abweichungen, innerhalb derer der angestrebte Durchschnittswert der Allgemeinbevölkerung schwanken kann, nennt man „ Vertrauensgrenzen».

Die Postulate der Wahrscheinlichkeitstheorie haben bewiesen, dass bei einer Normalverteilung eines Merkmals mit einer Wahrscheinlichkeit von 99,7% die Extremwerte der Abweichungen vom Mittelwert den Wert des dreifachen Repräsentativitätsfehlers nicht überschreiten ( M ± 3 m ); in 95,5% - nicht mehr als der Wert des doppelten Durchschnittsfehlers des Durchschnittswerts ( M ±2 m ); in 68,3% - nicht mehr als der Wert eines durchschnittlichen Fehlers ( M ± 1 m ) (Abb. 9).

P%

Reis. 9. Wahrscheinlichkeitsdichte der Normalverteilung.

Beachten Sie, dass die obige Aussage nur für ein Merkmal gilt, das dem normalen Gaußschen Verteilungsgesetz gehorcht.

Die meisten experimentellen Studien, auch in der Medizin, sind mit Messungen verbunden, deren Ergebnisse in einem bestimmten Intervall nahezu beliebige Werte annehmen können, daher werden sie in der Regel durch ein Modell kontinuierlicher Zufallsvariablen beschrieben. In dieser Hinsicht berücksichtigen die meisten statistischen Methoden kontinuierliche Verteilungen. Eine dieser Verteilungen, die in der mathematischen Statistik eine grundlegende Rolle spielt, ist Normal- oder Gaußsche Verteilung.

Dies hat mehrere Gründe.

1. Zunächst einmal lassen sich viele experimentelle Beobachtungen erfolgreich mit einer Normalverteilung beschreiben. Es sei gleich darauf hingewiesen, dass es keine Verteilungen empirischer Daten gibt, die genau normal wären, da eine normalverteilte Zufallsvariable im Bereich von bis liegt, was in der Praxis nie vorkommt. Die Normalverteilung ist jedoch sehr oft eine gute Näherung.

Ob Messungen von Gewicht, Größe und anderen physiologischen Parametern des menschlichen Körpers durchgeführt werden – überall beeinflussen sehr viele Zufallsfaktoren (natürliche Ursachen und Messfehler) die Ergebnisse. Und in der Regel ist die Wirkung jedes dieser Faktoren unbedeutend. Die Erfahrung zeigt, dass die Ergebnisse in solchen Fällen ungefähr normal verteilt sein werden.

2. Viele Verteilungen, die mit einer Zufallsstichprobe verbunden sind, werden mit einer Zunahme des Volumens der letzteren normal.

3. Die Normalverteilung eignet sich gut als ungefähre Beschreibung anderer kontinuierlicher Verteilungen (z. B. asymmetrischer).

4. Die Normalverteilung hat eine Reihe günstiger mathematischer Eigenschaften, die ihre weite Verbreitung in der Statistik weitgehend sichergestellt haben.

Gleichzeitig ist zu beachten, dass es in medizinischen Daten viele experimentelle Verteilungen gibt, die nicht durch das Normalverteilungsmodell beschrieben werden können. Zu diesem Zweck hat die Statistik Methoden entwickelt, die allgemein als "nichtparametrisch" bezeichnet werden.

Die Wahl eines statistischen Verfahrens, das für die Verarbeitung der Daten eines bestimmten Experiments geeignet ist, sollte in Abhängigkeit davon erfolgen, ob die erhaltenen Daten zum Normalverteilungsgesetz gehören. Die Hypothesenprüfung zur Unterordnung eines Vorzeichens unter das Normalverteilungsgesetz erfolgt anhand eines Histogramms der Häufigkeitsverteilung (Grafik) sowie einer Reihe statistischer Kriterien. Unter ihnen:

Asymmetriekriterium ( b );

Kriterien für die Überprüfung auf Kurtosis ( g );

Shapiro-Wilks-Kriterium ( W ) .

Für jeden Parameter wird eine Analyse der Art der Datenverteilung (auch Test auf Normalverteilung genannt) durchgeführt. Um die Übereinstimmung der Parameterverteilung mit dem Normalgesetz sicher beurteilen zu können, ist eine ausreichend große Anzahl von Beobachtungseinheiten (mindestens 30 Werte) erforderlich.

Bei einer Normalverteilung nehmen die Kriterien Schiefe und Kurtosis den Wert 0 an. Wenn die Verteilung nach rechts verschoben wird b > 0 (positive Asymmetrie), mit b < 0 - график распределения смещен влево (отрицательная асимметрия). Критерий асимметрии проверяет форму кривой распределения. В случае нормального закона g =0. Bei g > 0 ist die Verteilungskurve schärfer, wenn g < 0 пик более сглаженный, чем функция нормального распределения.

Um mit dem Shapiro-Wilks-Test auf Normalität zu testen, muss der Wert dieses Kriteriums anhand statistischer Tabellen auf dem erforderlichen Signifikanzniveau und in Abhängigkeit von der Anzahl der Beobachtungseinheiten (Freiheitsgrade) ermittelt werden. Anhang 1. Die Hypothese der Normalität wird für kleine Werte dieses Kriteriums in der Regel abgelehnt, z w <0,8.

Das Konzept einer Variationsreihe. Der erste Schritt bei der Systematisierung des statistischen Beobachtungsmaterials besteht darin, die Anzahl der Einheiten zu zählen, die das eine oder andere Merkmal aufweisen. Nachdem wir die Einheiten in aufsteigender oder absteigender Reihenfolge ihres quantitativen Attributs angeordnet und die Anzahl der Einheiten mit einem bestimmten Attributwert gezählt haben, erhalten wir eine Variationsreihe. Die Variationsreihe charakterisiert die Verteilung von Einheiten einer bestimmten statistischen Grundgesamtheit gemäß einem quantitativen Merkmal.

Die Variationsreihe besteht aus zwei Spalten, die linke Spalte enthält die Werte des variablen Attributs, Varianten genannt und mit (x) bezeichnet, und die rechte Spalte enthält absolute Zahlen, die zeigen, wie oft jede Variante vorkommt. Die Werte in dieser Spalte werden Frequenzen genannt und mit (f) bezeichnet.

Schematisch lassen sich die Variationsreihen in Form von Tabelle 5.1 darstellen:

Tabelle 5.1

Art der Variationsserie

Optionen (x)

Frequenzen (f)

In der rechten Spalte können auch relative Indikatoren verwendet werden, die den Anteil der Häufigkeit einzelner Varianten an der Gesamthäufigkeit charakterisieren. Diese relativen Indikatoren werden als Häufigkeiten bezeichnet und üblicherweise mit bezeichnet, d. h. . Die Summe aller Frequenzen ist gleich eins. Häufigkeiten können auch in Prozent ausgedrückt werden, dann ergibt ihre Summe 100 %.

Variable Zeichen können unterschiedlicher Natur sein. Varianten einiger Zeichen werden in ganzen Zahlen ausgedrückt, z. B. die Anzahl der Zimmer in einer Wohnung, die Anzahl der veröffentlichten Bücher usw. Diese Zeichen werden diskontinuierlich oder diskret genannt. Varianten anderer Zeichen können innerhalb bestimmter Grenzen beliebige Werte annehmen, wie z. B. die Erfüllung geplanter Ziele, Löhne usw. Diese Zeichen werden als kontinuierlich bezeichnet.

Diskrete Variationsserie. Wenn die Varianten der Variationsreihe als diskrete Werte ausgedrückt werden, wird eine solche Variationsreihe als diskret bezeichnet, ihr Aussehen ist in der Tabelle dargestellt. 5.2:

Tabelle 5.2

Verteilung der Studierenden nach Prüfungsnoten

Bewertungen (x)

Anzahl Studierende (w)

In % von insgesamt ()

Die Art der Verteilung in diskreten Reihen wird grafisch als Verteilungspolygon dargestellt, Abb.5.1.

Reis. 5.1. Verteilung der Studierenden nach Prüfungsnoten.

Serie von Intervallvariationen. Bei kontinuierlichen Merkmalen werden Variationsreihen als Intervallreihen konstruiert, d.h. Merkmalswerte in ihnen werden als Intervalle "von und bis" ausgedrückt. Dabei wird der Minimalwert eines Merkmals in einem solchen Intervall als Untergrenze des Intervalls und der Maximalwert als Obergrenze des Intervalls bezeichnet.

Intervall-Variationsreihen werden sowohl für diskontinuierliche Merkmale (diskret) als auch für Merkmale erstellt, die in einem großen Bereich variieren. Intervallreihen können gleiche und ungleiche Intervalle haben. In der wirtschaftlichen Praxis werden meist ungleiche Intervalle verwendet, die progressiv ansteigen oder abfallen. Eine solche Notwendigkeit ergibt sich insbesondere in Fällen, in denen die Schwankung des Vorzeichens ungleichmäßig und in großen Grenzen ausgeführt wird.

Betrachten Sie die Art der Intervallreihe mit gleichen Intervallen, Tabelle. 5.3:

Tabelle 5.3

Verteilung der Arbeiter nach Output

Ausgang, tr. (X)

Anzahl der Arbeiter (w)

Summenhäufigkeit (f´)

Die Intervallverteilungsreihe wird grafisch als Histogramm dargestellt, Abb.5.2.

Abb.5.2. Verteilung der Arbeiter nach Output

Kumulierte (kumulierte) Häufigkeit. In der Praxis besteht die Notwendigkeit, die Verteilungsreihe in umzuwandeln kumulative Zeilen, baut auf den akkumulierten Frequenzen auf. Sie können verwendet werden, um strukturelle Durchschnitte zu definieren, die die Analyse von Verteilungsreihendaten erleichtern.

Die kumulativen Häufigkeiten werden ermittelt, indem die Häufigkeiten (oder Häufigkeiten) der ersten Gruppe dieser Indikatoren der nachfolgenden Gruppen der Verteilungsreihe sequentiell addiert werden. Zur Veranschaulichung der Verbreitungsreihen werden Kumulate und Spitzbogen verwendet. Um sie zu bilden, werden die Werte eines diskreten Merkmals (oder die Enden der Intervalle) auf der Abszissenachse markiert, und die wachsenden Summen von Häufigkeiten (kumulieren) werden auf der Ordinatenachse markiert, Abb.5.3.

Reis. 5.3. Die kumulierte Verteilung der Arbeitnehmer nach Entwicklung

Werden die Skalen von Häufigkeiten und Varianten vertauscht, d.h. die akkumulierten Häufigkeiten auf der Abszissenachse und die Werte der Optionen auf der Ordinatenachse wiedergeben, dann wird die Kurve, die die Änderung der Häufigkeiten von Gruppe zu Gruppe charakterisiert, als Verteilungsogive bezeichnet, Abb. 5.4.

Reis. 5.4. Ogiva-Verteilung von Arbeitern für die Produktion

Schwankungsreihen mit gleichen Intervallen stellen eine der wichtigsten Voraussetzungen für statistische Verteilungsreihen dar, um deren zeitliche und räumliche Vergleichbarkeit zu gewährleisten.

Verteilungsdichte. Allerdings sind die Häufigkeiten einzelner ungleicher Intervalle in diesen Reihen nicht direkt vergleichbar. In solchen Fällen wird zur Gewährleistung der notwendigen Vergleichbarkeit die Verteilungsdichte berechnet, d.h. Bestimmen Sie, wie viele Einheiten in jeder Gruppe pro Einheit des Intervallwerts sind.

Beim Erstellen eines Diagramms der Verteilung einer Variationsreihe mit ungleichen Intervallen wird die Höhe der Rechtecke nicht proportional zu den Häufigkeiten, sondern zu den Indikatoren der Verteilungsdichte der Werte des untersuchten Merkmals in den entsprechenden Intervallen bestimmt .

Die Erstellung einer Variationsreihe und ihrer grafischen Darstellung ist der erste Schritt bei der Verarbeitung der Ausgangsdaten und der erste Schritt bei der Analyse der untersuchten Population. Der nächste Schritt bei der Analyse von Variationsreihen ist die Bestimmung der wichtigsten verallgemeinernden Indikatoren, die als Merkmale der Reihe bezeichnet werden. Diese Merkmale sollen eine Vorstellung vom Durchschnittswert des Attributs in den Einheiten der Grundgesamtheit vermitteln.

Durchschnittswert. Der Durchschnittswert ist ein verallgemeinertes Merkmal des untersuchten Merkmals in der untersuchten Population, das sein typisches Niveau pro Bevölkerungseinheit unter bestimmten Bedingungen von Ort und Zeit widerspiegelt.

Der Durchschnittswert wird immer genannt, hat die gleiche Dimension wie das Attribut einzelner Einheiten der Bevölkerung.

Vor der Berechnung der Durchschnittswerte müssen die Einheiten der untersuchten Population gruppiert werden, wobei qualitativ homogene Gruppen hervorgehoben werden.

Der für die Gesamtbevölkerung berechnete Durchschnitt wird als allgemeiner Durchschnitt und für jede Gruppe als Gruppendurchschnitt bezeichnet.

Es gibt zwei Arten von Durchschnitten: Leistung (arithmetischer Durchschnitt, harmonischer Durchschnitt, geometrischer Durchschnitt, quadratischer Mittelwert); strukturell (Modus, Median, Quartile, Dezile).

Die Wahl des Durchschnitts für die Berechnung hängt vom Zweck ab.

Arten von Leistungsmittelwerten und Methoden zu ihrer Berechnung. In der Praxis der statistischen Verarbeitung des gesammelten Materials treten verschiedene Probleme auf, für deren Lösung unterschiedliche Mittelwerte erforderlich sind.

Die mathematische Statistik leitet verschiedene Mittelwerte aus Potenzmittelformeln ab:

wo ist der Durchschnittswert; x - individuelle Optionen (Merkmalswerte); z - Exponent (bei z = 1 - arithmetisches Mittel, z = 0 geometrisches Mittel, z = - 1 - harmonisches Mittel, z = 2 - quadratisches Mittel).

Die Frage, welche Art von Durchschnitt im Einzelfall anzuwenden ist, wird jedoch durch eine spezifische Analyse der untersuchten Population gelöst.

Die häufigste Art des Durchschnitts in der Statistik ist arithmetisches Mittel. Es wird in den Fällen berechnet, in denen das Volumen des gemittelten Attributs als Summe seiner Werte für einzelne Einheiten der untersuchten statistischen Grundgesamtheit gebildet wird.

Je nach Art der Ausgangsdaten wird der arithmetische Mittelwert auf unterschiedliche Weise ermittelt:

Wenn die Daten nicht gruppiert sind, erfolgt die Berechnung nach der Formel eines einfachen Mittelwerts

Berechnung des arithmetischen Mittels in einer diskreten Reihe erfolgt nach Formel 3.4.

Berechnung des arithmetischen Mittels in der Intervallreihe. In einer Intervallvariationsreihe, bei der die Mitte des Intervalls bedingt als Wert eines Merkmals in jeder Gruppe genommen wird, kann das arithmetische Mittel von dem aus nicht gruppierten Daten berechneten Mittel abweichen. Je größer das Intervall in Gruppen ist, desto größer sind außerdem die möglichen Abweichungen des aus den gruppierten Daten berechneten Durchschnitts von dem aus den nicht gruppierten Daten berechneten Durchschnitt.

Bei der Berechnung des Durchschnitts für eine Reihe von Intervallvariationen geht man zur Durchführung der erforderlichen Berechnungen von den Intervallen zu ihren Mittelpunkten über. Berechnen Sie dann den Durchschnittswert nach der Formel des arithmetisch gewichteten Durchschnitts.

Eigenschaften des arithmetischen Mittels. Das arithmetische Mittel hat einige Eigenschaften, die es uns ermöglichen, Berechnungen zu vereinfachen, betrachten wir sie.

1. Das arithmetische Mittel der konstanten Zahlen ist gleich dieser konstanten Zahl.

Wenn x = a. Dann .

2. Wenn die Gewichte aller Optionen proportional geändert werden, d.h. gleich oft erhöhen oder verringern, dann ändert sich das arithmetische Mittel der neuen Reihe hiervon nicht.

Wenn alle Gewichte f um k-mal reduziert werden, dann .

3. Die Summe der positiven und negativen Abweichungen der einzelnen Optionen vom Durchschnitt, multipliziert mit den Gewichten, ist gleich Null, d.h.

Wenn, dann . Von hier.

Wenn alle Optionen um eine Zahl verringert oder erhöht werden, wird das arithmetische Mittel der neuen Reihe um denselben Betrag verringert oder erhöht.

Reduzieren Sie alle Optionen x auf der a, d.h. x´ = xa.

Dann

Das arithmetische Mittel der Anfangsreihe erhält man, indem man zum reduzierten Mittel die zuvor von den Varianten subtrahierte Zahl addiert a, d.h. .

5. Wenn alle Optionen reduziert oder erhöht werden k Mal, dann wird das arithmetische Mittel der neuen Reihe um den gleichen Betrag abnehmen oder zunehmen, d.h. in k einmal.

Lass dann .

Daher, d.h. Um den Durchschnitt der ursprünglichen Reihe zu erhalten, muss das arithmetische Mittel der neuen Reihe (mit reduzierten Optionen) um erhöht werden k einmal.

Durchschnittliche Oberschwingung. Das harmonische Mittel ist der Kehrwert des arithmetischen Mittels. Es wird verwendet, wenn statistische Informationen keine Häufigkeiten für einzelne Populationsoptionen enthalten, sondern als deren Produkt (M = xf) dargestellt werden. Der harmonische Mittelwert wird nach Formel 3.5 berechnet

Die praktische Anwendung des harmonischen Mittels besteht darin, einige Indizes zu berechnen, insbesondere den Preisindex.

Geometrisches Mittel. Bei der Verwendung des geometrischen Mittels sind die Einzelwerte des Attributs in der Regel relative Werte der Dynamik, aufgebaut in Form von Kettenwerten, im Verhältnis zur vorherigen Stufe jeder Stufe in der Dynamikreihe . Der Durchschnitt charakterisiert somit die durchschnittliche Wachstumsrate.

Das geometrische Mittel wird auch verwendet, um den äquidistanten Wert aus den maximalen und minimalen Werten des Attributs zu bestimmen. Beispielsweise schließt eine Versicherungsgesellschaft Verträge über die Erbringung von Autoversicherungsleistungen ab. Je nach Versicherungsfall kann die Versicherungsleistung zwischen 10.000 und 100.000 Euro pro Jahr betragen. Die durchschnittliche Versicherungsauszahlung beträgt US$.

Der geometrische Mittelwert ist der Wert, der als Durchschnitt der Verhältnisse oder in der Verteilungsreihe verwendet wird, dargestellt als geometrische Progression, wenn z = 0. Dieser Durchschnitt ist praktisch zu verwenden, wenn nicht auf absolute Unterschiede, sondern auf die Verhältnisse geachtet wird zwei Nummern.

Formeln zur Berechnung sind wie folgt

wo sind Varianten des gemittelten Merkmals; - das Produkt von Optionen; f– Häufigkeit der Optionen.

Das geometrische Mittel wird zur Berechnung der durchschnittlichen jährlichen Wachstumsraten verwendet.

Quadratischer Mittelwert. Mit der quadratischen Mittelwertformel wird der Schwankungsgrad der Einzelwerte eines Merkmals um das arithmetische Mittel in der Verteilungsreihe gemessen. Bei der Berechnung der Variationsindikatoren wird der Durchschnitt also aus den Quadraten der Abweichungen der Einzelwerte des Merkmals vom arithmetischen Mittel berechnet.

Der mittlere quadratische Wert wird durch die Formel berechnet

In der Wirtschaftsforschung wird die modifizierte Form des quadratischen Mittelwerts häufig zur Berechnung von Indikatoren für die Variation eines Merkmals verwendet, z. B. Varianz, Standardabweichung.

Mehrheitsregel. Zwischen Potenzgesetzmittelwerten besteht folgender Zusammenhang – je größer der Exponent, desto größer der Mittelwert, Tabelle 5.4:

Tabelle 5.4

Verhältnis zwischen Durchschnittswerten

z-Wert

Das Verhältnis zwischen den Durchschnittswerten

Diese Beziehung wird Majoranzregel genannt.

Strukturelle Durchschnitte. Zur Charakterisierung der Bevölkerungsstruktur werden spezielle Indikatoren verwendet, die als strukturelle Durchschnitte bezeichnet werden können. Diese Maße umfassen Modus, Median, Quartile und Dezile.

Mode. Modus (Mo) ist der am häufigsten vorkommende Wert eines Merkmals in Bevölkerungseinheiten. Modus ist der Wert des Attributs, das dem höchsten Punkt der theoretischen Verteilungskurve entspricht.

Mode wird in der Handelspraxis häufig bei der Untersuchung der Verbrauchernachfrage (bei der Bestimmung der Größen von stark nachgefragten Kleidungsstücken und Schuhen) und der Preisregistrierung verwendet. Es kann insgesamt mehrere Mods geben.

Modusberechnung in einer diskreten Reihe. In einer diskreten Reihe ist der Modus die Variante mit der höchsten Frequenz. Erwägen Sie, einen Modus in einer diskreten Reihe zu finden.

Berechnung der Mode in einer Intervallreihe. In der Intervallvariationsreihe wird die zentrale Variante des modalen Intervalls näherungsweise als Modus betrachtet, d.h. das Intervall mit der höchsten Häufigkeit (Frequenz). Innerhalb des Intervalls ist es notwendig, den Wert des Attributs zu finden, das der Modus ist. Bei einer Intervallserie wird der Modus durch die Formel bestimmt

wo ist die untere Grenze des modalen Intervalls; der Wert des modalen Intervalls ist; die Frequenz ist, die dem modalen Intervall entspricht; die Frequenz ist, die dem modalen Intervall vorausgeht; ist die Häufigkeit des Intervalls nach dem Modal.

Median. Der Median () ist der Wert des Merkmals in der mittleren Einheit der Rangfolge. Eine Rangreihe ist eine Reihe, in der die Kennwerte in aufsteigender oder absteigender Reihenfolge geschrieben werden. Oder der Median ist ein Wert, der die Anzahl einer geordneten Variationsreihe in zwei gleiche Teile teilt: Ein Teil hat einen Wert eines variablen Merkmals, der kleiner als die durchschnittliche Variante ist, und der andere ist groß.

Um den Median zu finden, wird zunächst seine Seriennummer ermittelt. Dazu wird bei einer ungeraden Anzahl von Einheiten zur Summe aller Frequenzen eins addiert und alles durch zwei geteilt. Bei einer geraden Anzahl von Einheiten ergibt sich der Median als Wert des Attributs der Einheit, deren Seriennummer sich aus der Gesamtsumme der Häufigkeiten dividiert durch zwei ergibt. Wenn man die Ordnungszahl des Medians kennt, ist es einfach, seinen Wert aus den akkumulierten Häufigkeiten zu finden.

Berechnung des Medians in einer diskreten Reihe. Gemäß der Stichprobenerhebung wurden Daten zur Verteilung der Familien nach der Anzahl der Kinder erhoben, Tabelle. 5.5. Um den Median zu bestimmen, bestimmen Sie zunächst seine Ordnungszahl

In diesen Familien beträgt die Kinderzahl 2, also = 2. Somit übersteigt in 50 % der Familien die Kinderzahl 2 nicht.

–kumulierte Häufigkeit vor dem Medianintervall;

Das ist einerseits eine sehr positive Eigenschaft. in diesem Fall wird die Wirkung aller Ursachen berücksichtigt, die alle Einheiten der untersuchten Population betreffen. Andererseits kann sogar eine Beobachtung, die versehentlich in die Ausgangsdaten aufgenommen wurde, die Vorstellung vom Entwicklungsstand des untersuchten Merkmals in der betrachteten Population (insbesondere in kurzen Serien) erheblich verzerren.

Quartile und Dezile. In Analogie zum Ermitteln des Medians in Variationsreihen kann man den Wert eines Merkmals in jeder geordneten Reiheneinheit in der Reihenfolge finden. So kann man insbesondere den Wert eines Merkmals für Einheiten finden, indem man die Reihe in 4 gleiche Teile, in 10 usw. teilt.

Quartile. Varianten, die die Rangfolge in vier gleiche Teile teilen, werden als Quartile bezeichnet.

Gleichzeitig wird Folgendes unterschieden: das untere (oder erste) Quartil (Q1) - der Wert des Merkmals der Einheit der Rangfolge, der die Bevölkerung im Verhältnis von ¼ zu ¾ und das obere (oder dritte) teilt ) Quartil (Q3) - der Wert des Merkmals der Einheit der Rangfolge, der die Bevölkerung im Verhältnis ¾ zu ¼ teilt.

– Häufigkeiten von Quartilintervallen (unteres und oberes)

Die Intervalle, die Q1 und Q3 enthalten, werden aus den akkumulierten Häufigkeiten (oder Häufigkeiten) bestimmt.

Dezile. Neben Quartilen werden Dezile berechnet - Optionen, die die Rangfolge in 10 gleiche Teile teilen.

Sie werden mit D bezeichnet, das erste Dezil D1 teilt die Reihe im Verhältnis 1/10 und 9/10, das zweite D2 - 2/10 und 8/10 usw. Sie werden auf die gleiche Weise berechnet wie der Median und die Quartile.

Sowohl der Median, als auch Quartile und Dezile gehören zur sogenannten Ordinalstatistik, worunter eine Variante verstanden wird, die in einer Rangfolge einen bestimmten Ordinalplatz einnimmt.

Variationsserien – eine Serie, in der sie verglichen werden (in aufsteigender oder absteigender Reihenfolge) Optionen und ihre jeweiligen Frequenzen

Varianten sind separate quantitative Ausdrücke eines Merkmals. Bezeichnet mit einem lateinischen Buchstaben v . Das klassische Verständnis des Begriffs „Variante“ geht davon aus, dass jeder eindeutige Wert eines Merkmals als Variante bezeichnet wird, unabhängig von der Anzahl der Wiederholungen.

Zum Beispiel in einer Variationsreihe von Indikatoren des systolischen Blutdrucks, die bei zehn Patienten gemessen wurden:

110, 120, 120, 130, 130, 130, 140, 140, 160, 170;

nur 6 Werte sind Optionen:

110, 120, 130, 140, 160, 170.

Häufigkeit ist eine Zahl, die angibt, wie oft eine Option wiederholt wird. Bezeichnet mit einem lateinischen Buchstaben P . Die Summe aller Häufigkeiten (die natürlich gleich der Anzahl aller untersuchten ist) wird als bezeichnet n.

    In unserem Beispiel nehmen die Frequenzen folgende Werte an:
  • für Variante 110 Häufigkeit P = 1 (Wert 110 tritt bei einem Patienten auf),
  • für Variante 120 Häufigkeit P = 2 (Wert 120 tritt bei zwei Patienten auf),
  • für Variante 130 Häufigkeit P = 3 (Wert 130 tritt bei drei Patienten auf),
  • für Variante 140 Häufigkeit P = 2 (Wert 140 tritt bei zwei Patienten auf),
  • für Variante 160 Häufigkeit P = 1 (Wert 160 tritt bei einem Patienten auf),
  • für Variante 170 Häufigkeit P = 1 (Wert 170 tritt bei einem Patienten auf),

Arten von Variationsreihen:

  1. einfach- Dies ist eine Reihe, in der jede Option nur einmal vorkommt (alle Häufigkeiten sind gleich 1);
  2. suspendiert- eine Reihe, in der eine oder mehrere Optionen wiederholt vorkommen.

Die Variationsreihe dient der Beschreibung großer Zahlenfelder, in dieser Form werden die gesammelten Daten der meisten medizinischen Studien zunächst dargestellt. Um die Variationsreihen zu charakterisieren, werden spezielle Indikatoren berechnet, darunter Durchschnittswerte, Variabilitätsindikatoren (die sogenannte Streuung), Indikatoren für die Repräsentativität von Stichprobendaten.

Indikatoren für Variationsreihen

1) Das arithmetische Mittel ist ein verallgemeinernder Indikator, der die Größe des untersuchten Merkmals charakterisiert. Das arithmetische Mittel wird als bezeichnet M , ist die häufigste Art des Durchschnitts. Das arithmetische Mittel wird als Verhältnis der Summe der Werte der Indikatoren aller Beobachtungseinheiten zur Anzahl aller untersuchten Einheiten berechnet. Die Methode zur Berechnung des arithmetischen Mittels unterscheidet sich für eine einfache und eine gewichtete Variationsreihe.

Formel zur Berechnung einfaches arithmetisches Mittel:

Formel zur Berechnung gewichtetes arithmetisches Mittel:

M = Σ(V * P)/ n

​ 2) Modus – ein weiterer Durchschnittswert der Variationsreihe, der der am häufigsten wiederholten Variante entspricht. Oder anders ausgedrückt, dies ist die Option, die der höchsten Frequenz entspricht. Bezeichnet als Mo . Der Modus wird nur für gewichtete Reihen berechnet, da bei einfachen Reihen keine der Optionen wiederholt wird und alle Häufigkeiten gleich eins sind.

Zum Beispiel in der Variationsreihe der Herzfrequenzwerte:

80, 84, 84, 86, 86, 86, 90, 94;

der Wert des Modus ist 86, da diese Variante 3 mal vorkommt, also ihre Häufigkeit am höchsten ist.

3) Median - der Wert der Option, der die Variationsreihe halbiert: Auf beiden Seiten davon gibt es eine gleiche Anzahl von Optionen. Der Median sowie das arithmetische Mittel und der Modus beziehen sich auf Durchschnittswerte. Bezeichnet als Mir

4) Standardabweichung (Synonyme: Standardabweichung, Sigmaabweichung, Sigma) - ein Maß für die Variabilität der Variationsreihe. Es ist ein integraler Indikator, der alle Fälle der Abweichung einer Variante vom Mittelwert kombiniert. Tatsächlich beantwortet es die Frage: Wie weit und wie oft weichen die Optionen vom arithmetischen Mittel ab. Bezeichnet mit einem griechischen Buchstaben σ ("sigma").

Wenn die Populationsgröße mehr als 30 Einheiten beträgt, wird die Standardabweichung anhand der folgenden Formel berechnet:

Für kleine Populationen – 30 Beobachtungseinheiten oder weniger – wird die Standardabweichung mit einer anderen Formel berechnet:

(Definition einer Variationsreihe; Bestandteile einer Variationsreihe; drei Formen einer Variationsreihe; Zweckmäßigkeit der Konstruktion einer Intervallreihe; Schlussfolgerungen, die aus der konstruierten Reihe gezogen werden können)

Eine Variationsreihe ist eine Folge aller Elemente einer Probe, die in nicht absteigender Reihenfolge angeordnet sind. Die gleichen Elemente werden wiederholt

Variational – das sind Serien, die auf quantitativer Basis aufgebaut sind.

Variationsverteilungsreihen bestehen aus zwei Elementen: Varianten und Häufigkeiten:

Varianten sind die Zahlenwerte eines quantitativen Merkmals in der Variationsreihe der Verteilung. Sie können positiv oder negativ, absolut oder relativ sein. Wenn Sie also Unternehmen nach den Ergebnissen der Wirtschaftstätigkeit gruppieren, sind die Optionen positiv - das ist Gewinn und negative Zahlen - das ist ein Verlust.

Häufigkeiten sind die Anzahlen einzelner Varianten oder jeder Gruppe der Variantenreihe, d.h. dies sind Zahlen, die angeben, wie oft bestimmte Optionen in einer Verteilungsserie vorkommen. Die Summe aller Häufigkeiten wird als Populationsvolumen bezeichnet und wird durch die Anzahl der Elemente der Gesamtpopulation bestimmt.

Häufigkeiten sind Häufigkeiten, die als relative Werte (Bruchteile von Einheiten oder Prozentangaben) ausgedrückt werden. Die Summe der Häufigkeiten ist gleich eins oder 100 %. Das Ersetzen von Häufigkeiten durch Häufigkeiten ermöglicht den Vergleich von Variationsreihen mit unterschiedlicher Anzahl von Beobachtungen.

Es gibt drei Formen von Variationsreihen: Rangreihen, diskrete Reihen und Intervallreihen.

Eine Rangfolge ist die Verteilung einzelner Bevölkerungseinheiten in aufsteigender oder absteigender Reihenfolge des untersuchten Merkmals. Das Ranking macht es einfach, quantitative Daten in Gruppen zu unterteilen, die kleinsten und größten Werte eines Merkmals sofort zu erkennen und die am häufigsten wiederholten Werte hervorzuheben.

Andere Formen der Variationsreihe sind Gruppentabellen, die nach der Art der Variation der Werte des untersuchten Merkmals zusammengestellt werden. Aufgrund der Art der Variation werden diskrete (diskontinuierliche) und kontinuierliche Zeichen unterschieden.

Eine diskrete Reihe ist eine solche Variationsreihe, deren Konstruktion auf Zeichen mit diskontinuierlicher Änderung (diskrete Zeichen) basiert. Zu letzteren gehören die Tarifklasse, die Anzahl der Kinder in der Familie, die Anzahl der Beschäftigten im Unternehmen etc. Diese Zeichen können nur eine endliche Anzahl bestimmter Werte annehmen.

Eine diskrete Variationsreihe ist eine Tabelle, die aus zwei Spalten besteht. Die erste Spalte gibt den spezifischen Wert des Attributs an und die zweite - die Anzahl der Bevölkerungseinheiten mit einem spezifischen Wert des Attributs.

Wenn ein Zeichen eine kontinuierliche Änderung aufweist (die Höhe des Einkommens, der Berufserfahrung, die Kosten des Anlagevermögens eines Unternehmens usw., die innerhalb bestimmter Grenzen jeden Wert annehmen können), muss für dieses Zeichen eine Intervallvariationsserie erstellt werden.



Auch hier ist die Gruppentabelle zweispaltig. Der erste gibt den Wert des Merkmals im Intervall "von - bis" (Optionen) an, der zweite - die Anzahl der im Intervall enthaltenen Einheiten (Häufigkeit).

Häufigkeit (Wiederholungshäufigkeit) – die Anzahl der Wiederholungen einer bestimmten Variante der Attributwerte, bezeichnet mit fi , und die Summe der Häufigkeiten gleich dem Volumen der untersuchten Population, bezeichnet

Dabei ist k die Anzahl der Attributwertoptionen

Sehr oft wird die Tabelle um eine Spalte ergänzt, in der die kumulierten Häufigkeiten S berechnet werden, die zeigen, wie viele Einheiten der Grundgesamtheit einen Merkmalswert nicht größer als diesen Wert haben.

Eine diskrete Variationsverteilungsreihe ist eine Reihe, in der Gruppen gemäß einem Merkmal zusammengesetzt werden, das diskret variiert und nur ganzzahlige Werte annimmt.

Die Intervallvariationsreihe der Verteilung ist eine Reihe, in der das Gruppierungsattribut, das die Grundlage der Gruppierung bildet, in einem bestimmten Intervall beliebige Werte annehmen kann, einschließlich gebrochener.

Eine Intervallvariationsreihe ist eine geordnete Menge von Variationsintervallen der Werte einer Zufallsvariablen mit den entsprechenden Häufigkeiten oder Häufigkeiten der Werte der Größe, die in jede von ihnen fallen.

Sinnvoll ist die Bildung einer Intervallverteilungsreihe zunächst bei einer kontinuierlichen Variation eines Merkmals und auch dann, wenn sich eine diskrete Variation über einen weiten Bereich, d.h. Die Anzahl der Optionen für ein diskretes Merkmal ist ziemlich groß.

Aus dieser Reihe lassen sich bereits einige Schlussfolgerungen ziehen. Beispielsweise kann das durchschnittliche Element einer Variationsreihe (Median) eine Schätzung des wahrscheinlichsten Ergebnisses einer Messung sein. Das erste und letzte Element der Variationsreihe (d. h. das minimale und maximale Element der Stichprobe) zeigen die Streuung der Elemente der Stichprobe. Wenn sich das erste oder letzte Element stark vom Rest der Probe unterscheidet, werden sie manchmal aus den Messergebnissen ausgeschlossen, da diese Werte aufgrund eines groben Fehlers, beispielsweise einer Technologie, erzielt wurden.