Methoden der statistischen Analyse. Datenanalyse: Statistische Forschungsmethoden

Senden Sie Ihre gute Arbeit in die Wissensdatenbank ist einfach. Verwenden Sie das untenstehende Formular

Studenten, Doktoranden, junge Wissenschaftler, die die Wissensbasis in ihrem Studium und ihrer Arbeit nutzen, werden Ihnen sehr dankbar sein.

Gehostet auf http://www.allbest.ru/

  • 3. Reihe von Dynamiken
  • Literatur

1. Absolute und relative Werte

Als Ergebnis der Zusammenfassung und Gruppierung Statistisches Material In den Händen des Forschers befinden sich die unterschiedlichsten Informationen über die untersuchten Phänomene und Prozesse. Sich bei den erzielten Ergebnissen aufzuhalten, wäre jedoch ein großer Fehler, denn selbst nach vorgegebenen Kriterien gruppiert und in tabellarischer oder grafischer Form wiedergegeben, sind diese Daten immer noch nur eine Art Veranschaulichung, Zwischenergebnis, die ausgewertet werden müssen - in diesem Fall statistisch. StatistischAnalyse - Das Leistung studiert Objekt in Qualität zerstückelt Systeme, diese. Komplex Elemente und Verbindungen, Erstellen in seine Interaktion organisch ganz.

Als Ergebnis einer solchen Analyse sollte ein Modell des untersuchten Objekts erstellt werden, und da wir über Statistiken sprechen, sollten beim Erstellen des Modells statistisch signifikante Elemente und Beziehungen verwendet werden.

Tatsächlich zielt die statistische Analyse darauf ab, solche signifikanten Elemente und Beziehungen zu identifizieren.

AbsolutIndikatoren(Werte) - Gesamtwerte berechnet oder aus statistischen Zusammenfassungsberichten ohne Transformationen entnommen. Absolute Indikatoren sind immer nominal und spiegeln sich in den Maßeinheiten wider, die bei der Erstellung des statistischen Beobachtungsprogramms festgelegt wurden (Anzahl der eingeleiteten Strafverfahren, Anzahl der begangenen Straftaten, Anzahl der Scheidungen usw.).

Absolute Indikatoren sind grundlegend für alle weiteren statistischen Operationen, aber sie selbst sind für die Analyse von geringem Nutzen. In absoluten Zahlen ist es beispielsweise schwierig, das Ausmaß der Kriminalität einzuschätzen verschiedene Städte oder Regionen, und es ist praktisch unmöglich, die Frage zu beantworten, wo die Kriminalität höher und wo sie niedriger ist, da sich Städte oder Regionen in Bezug auf Bevölkerung, Territorium und andere wichtige Parameter erheblich unterscheiden können.

relativMengen in der Statistik sind sie verallgemeinernde Kennziffern, die die Zahlenform des Verhältnisses zweier verglichener statistischer Größen wiedergeben. Bei der Berechnung relativer Werte werden am häufigsten zwei absolute Werte verglichen, aber sowohl Durchschnitts- als auch relative Werte können verglichen werden, um neue relative Indikatoren zu erhalten. Das einfachste Beispiel für die Berechnung eines relativen Werts ist die Antwort auf die Frage: Wie oft ist eine Zahl größer als eine andere?

Beginnend mit der Betrachtung relativer Werte ist es notwendig, Folgendes zu berücksichtigen. Im Prinzip lässt sich alles vergleichen, sogar die Längenmaße eines A4-Blattes mit der Anzahl der von der Lomonossow-Porzellanfabrik hergestellten Produkte. Ein solcher Vergleich wird uns jedoch nichts bringen. Die wichtigste Bedingung für eine fruchtbare Berechnung relativer Mengen lässt sich wie folgt formulieren:

1. Die Maßeinheiten der verglichenen Größen müssen gleich oder ziemlich vergleichbar sein. Die Anzahl der Straftaten, Strafverfahren und Verurteilten sind korrelierte Indikatoren, d.h. verwandt, aber hinsichtlich der Maßeinheiten nicht vergleichbar. In einem Strafverfahren können mehrere Straftaten berücksichtigt und eine Personengruppe verurteilt werden; Mehrere Sträflinge können ein Verbrechen begehen und umgekehrt kann ein Sträfling viele Taten begehen. Die Zahl der Straftaten, Fälle und Verurteilungen ist vergleichbar mit der Bevölkerungszahl, der Zahl des Personals der Strafjustiz, dem Lebensstandard der Menschen und anderen Daten desselben Jahres. Darüber hinaus sind die betrachteten Indikatoren innerhalb eines Jahres durchaus miteinander vergleichbar.

2. Vergleichbare Daten müssen unbedingt zeitlich oder räumlich ihres Eingangs oder beides übereinstimmen.

Absolut Wert, Mit die verglichen Sonstiges ineMasken, genannt Basis oder Base Vergleiche, a vergleichenundgeschnitzt Index - Größe Vergleiche. Zum Beispiel bei der Berechnung des Verhältnisses der Dynamik der Kriminalität in Russland in den Jahren 2000-2010. Die Daten von 2000 sind Basiswerte. Sie können als Einheit genommen werden (dann relativer Wert wird als Faktor ausgedrückt) pro 100 (in Prozent). Abhängig von der Dimension der verglichenen Werte wird die bequemste, indikativste und visuellste Form des Ausdrucks des relativen Werts gewählt.

Wenn der zu vergleichende Wert viel größer als die Basis ist, wird das resultierende Verhältnis am besten in Form von Koeffizienten ausgedrückt. Beispielsweise stieg die Kriminalität über einen bestimmten Zeitraum (in Jahren) um das 2,6-fache an. Der Ausdruck in Zeiten ist in diesem Fall aussagekräftiger als in Prozent. In Prozent werden relative Werte angegeben, wenn sich der Vergleichswert nicht wesentlich von der Basis unterscheidet.

Relative Werte, die in Statistiken verwendet werden, einschließlich gesetzlicher, sind verschiedene Typen. In der gesetzlichen Statistik werden folgende Arten von relativen Werten verwendet:

1. die Bevölkerungsstruktur charakterisierende Beziehungen oder Verteilungsverhältnisse;

2. das Verhältnis des Teils zum Ganzen oder das Verhältnis der Intensität;

3. Beziehungen, die die Dynamik charakterisieren;

4. Beziehungen von Grad und Vergleich.

RelativGrößeVerteilung - Das relativ Wert, ausgedrückt in Prozent Individuell Teile Aggregate studiert Phänomene(Straftaten, Verbrecher, Zivilsachen, Gerichtsverfahren, Ursachen, vorbeugende Maßnahmen usw.) zu Sie Allgemeines gesamt, akzeptiert pro 100% . Dies ist die häufigste (und einfachste) Art relativer Daten, die in Statistiken verwendet werden. Dies sind zum Beispiel die Kriminalitätsstruktur (nach Deliktsarten), die Verurteilungsstruktur (nach Deliktsarten, nach Alter der Verurteilten) etc.

Absolutwert der statistischen Analyse

AttitüdeIntensität(Teil-zu-Ganzes-Verhältnis) – ein verallgemeinernder relativer Wert, der die Prävalenz eines bestimmten Merkmals im Beobachteten widerspiegelt Aggregate.

Der in der Rechtsstatistik am häufigsten verwendete Intensitätsindikator ist die Kriminalitätsintensität. . Die Kriminalitätsintensität spiegelt sich in der Regel in der Kriminalitätsrate wider , diese. die Zahl der Straftaten pro 100 oder 10.000 Einwohner.

KP \u003d (P * 100000) / N

wo P - absolute Zahl registrierte Verbrechen, H ist die absolute Zahl der Bevölkerung.

Eine Voraussetzung, die die Möglichkeit der Berechnung solcher Indikatoren bestimmt, ist, wie oben erwähnt, dass alle verwendeten absoluten Indikatoren in einem Gebiet und für einen Zeitraum erhoben werden.

Beziehungen,charakterisierenDynamik, vertreten verallgemeinern relativ Mengen, zeigt Rückgeld in Zeit diese oder Sonstiges Indikatoren legal Statistiken. Als Zeitintervall wird in der Regel ein Jahr angenommen.

Für die Basis (Basis) gleich 1 oder 100% werden Informationen über das untersuchte Merkmal eines bestimmten Jahres genommen, das für das untersuchte Phänomen charakteristisch war. Dabei dienen die Daten des Basisjahres als feste Basis, auf die die Kennzahlen der Folgejahre prozentual aufgerechnet werden.

Die Aufgaben der statistischen Analyse erfordern oft jährliche (oder andere Perioden) Vergleiche, wenn Base akzeptiert Daten alle früher des Jahres(Monat oder anderer Zeitraum). Eine solche Basis heißt Handy, Mobiltelefon. Dies wird üblicherweise bei der Analyse von Zeitreihen (Series of Dynamics) verwendet.

BeziehungenGradundVergleiche ermöglichen es Ihnen, verschiedene Indikatoren zu vergleichen, um festzustellen, welcher Wert viel größer ist als der andere, inwieweit sich ein Phänomen von einem anderen unterscheidet oder ihm ähnlich ist, was in den beobachteten statistischen Prozessen gemeinsam und unterschiedlich ist usw.

Ein Index ist ein speziell erstellter relativer Vergleichsindikator (zeitlich, räumlich, im Vergleich mit einer Prognose usw.), der zeigt, wie oft sich das Niveau des untersuchten Phänomens unter bestimmten Bedingungen vom Niveau desselben Phänomens unter anderen unterscheidet Bedingungen. Indizes sind in der Wirtschaftsstatistik am gebräuchlichsten, spielen aber auch bei der Analyse rechtlicher Phänomene eine gewisse Rolle.

Indizes sind unverzichtbar, wenn unterschiedliche Indikatoren verglichen werden müssen, deren einfache Summierung unmöglich ist. Daher werden Indizes normalerweise als definiert Zahlen-IndikatorenzumMessungenMitteSprecherAggregateheterogenElemente.

In der Statistik werden Indizes üblicherweise mit dem Buchstaben I (i) bezeichnet. Kursiver Buchstabe oder Kapital - hängt davon ab, ob es sich um einen individuellen (privaten) oder einen allgemeinen Index handelt.

IndividuellIndizes(i) das Verhältnis des Indikators des aktuellen Zeitraums zum entsprechenden Indikator des Vergleichszeitraums widerspiegeln.

KonsolidiertIndizes werden bei der Analyse der Korrelation komplexer sozioökonomischer Phänomene verwendet und bestehen aus zwei Teilen: dem eigentlichen indexierten Wert und der Co-Messung ("Gewicht").

2. Mittelwerte und ihre Anwendung in der gesetzlichen Statistik

Das Ergebnis der Verarbeitung absoluter und relativer Indikatoren ist die Konstruktion von Verteilungsreihen. Die Zeile Verteilung - DasbestelltanQualitätoderquantitativgekennzeichnetVerteilungEinheitenAggregate. Die Analyse dieser Reihen ist die Grundlage jeder statistischen Analyse, egal wie komplex sie sich in Zukunft herausstellen wird.

Eine Verteilungsreihe kann anhand qualitativer oder quantitativer Merkmale aufgebaut werden. Im ersten Fall heißt es attributiv, in dieser Sekunde - variabel. In diesem Fall wird der Unterschied in einem quantitativen Merkmal genannt Variation, und dieses Zeichen selbst - Möglichkeit. Mit Variationsreihen hat die Rechtsstatistik am häufigsten zu tun.

Eine Variationsreihe besteht immer aus zwei Spalten (Grafik). Man gibt den Wert eines quantitativen Attributs in aufsteigender Reihenfolge an, die eigentlich Optionen genannt werden, die angezeigt werden x. Die andere Spalte (Spalte) gibt die Anzahl der Einheiten an, die für die eine oder andere Variante charakteristisch sind. Sie werden Frequenzen genannt und mit dem lateinischen Buchstaben bezeichnet f.

Tabelle 2.1

Möglichkeit x

Frequenz f

Die Häufigkeit der Manifestation des einen oder anderen Merkmals ist sehr wichtig, wenn andere signifikante statistische Indikatoren berechnet werden, nämlich die Durchschnittswerte und Variationsindikatoren.

Variationsreihen wiederum können sein diskret oder Intervall. Diskrete Reihen werden, wie der Name schon sagt, auf der Grundlage von diskret variierenden Merkmalen erstellt, und Intervallreihen werden auf der Grundlage von kontinuierlichen Variationen erstellt. So kann beispielsweise die Altersverteilung der Täter entweder diskret (18, 19,20 Jahre etc.) oder kontinuierlich (bis 18 Jahre, 18-25 Jahre, 25-30 Jahre etc.) erfolgen. Außerdem können die Intervallreihen selbst sowohl nach diskret als auch nach aufgebaut werden kontinuierliches Prinzip. Im ersten Fall wiederholen sich die Grenzen benachbarter Intervalle nicht; In unserem Beispiel sehen die Intervalle so aus: bis 18 Jahre, 18-25, 26-30, 31-35 usw. Eine solche Reihe heißt kontinuierlichdiskretdie Zeile. Intervalldie ZeileMitkontinuierlichVariation nimmt die Koinzidenz der Obergrenze des vorherigen Intervalls mit an untere Grenze anschließend.

Der allererste Indikator, der die Variationsreihe beschreibt, ist Mittel Mengen. Sie spielen in der Rechtsstatistik eine wichtige Rolle, da es nur mit ihrer Hilfe möglich ist, Populationen nach einem quantitativen Vorzeichen zu charakterisieren, mit dem sie verglichen werden können. Mit Hilfe von Durchschnittswerten ist es möglich, für uns interessierende Mengen von rechtlich bedeutsamen Phänomenen nach bestimmten quantitativen Merkmalen zu vergleichen und aus diesen Vergleichen die notwendigen Schlüsse zu ziehen.

MittelMengen reflektieren die meisten Allgemeines Trend (Regelmäßigkeit), der ganzen Masse der untersuchten Phänomene innewohnt. Es manifestiert sich in typisch quantitatives Merkmal, d.h. im Mittelwert aller verfügbaren (variablen) Indikatoren.

Die Statistik hat viele Arten von Durchschnitten entwickelt: arithmetische, geometrische, kubische, harmonische usw. Sie werden jedoch in der gesetzlichen Statistik praktisch nicht verwendet, daher werden wir nur zwei Arten von Durchschnitten betrachten - den arithmetischen Durchschnitt und den geometrischen Durchschnitt.

Der häufigste und bekannteste Durchschnitt ist DurchschnittArithmetik. Um es zu berechnen, wird die Summe der Indikatoren berechnet und durch dividiert Gesamtzahl Indikatoren. Beispielsweise besteht eine 4-köpfige Familie aus Eltern im Alter von 38 und 40 Jahren und zwei Kindern im Alter von 7 und 10 Jahren. Wir summieren das Alter: 38 + 40 + 7 + 10 und teilen die resultierende Summe von 95 durch 4. Das Ergebnis Durchschnittsalter Familie - 23,75 Jahre. Oder berechnen wir die durchschnittliche monatliche Arbeitsbelastung der Ermittler, wenn eine Abteilung mit 8 Personen 25 Fälle pro Monat löst. Teilen Sie 25 durch 8 und erhalten Sie 3.125 Fälle pro Monat und Ermittler.

In der Rechtsstatistik wird das arithmetische Mittel bei der Berechnung der Arbeitsbelastung der Mitarbeiter (Ermittler, Staatsanwälte, Richter usw.), der Berechnung des absoluten Anstiegs der Kriminalität, der Berechnung der Stichprobe usw. verwendet.

Im obigen Beispiel wurde jedoch die durchschnittliche monatliche Arbeitsbelastung pro Ermittler falsch berechnet. Tatsache ist, dass das einfache arithmetische Mittel nicht berücksichtigt wird Frequenz studierter Charakterzug. In unserem Beispiel ist die durchschnittliche monatliche Arbeitsbelastung eines Ermittlers so korrekt und aussagekräftig wie die „durchschnittliche Temperatur in einem Krankenhaus“ aus einer bekannten Anekdote, die, wie Sie wissen, die Raumtemperatur ist. Um die Häufigkeit der Manifestationen des untersuchten Merkmals bei der Berechnung des arithmetischen Mittels zu berücksichtigen, wird es wie folgt verwendet DurchschnittArithmetikgewichtet oder Durchschnitt für diskrete Variationsreihen. (Diskrete Variationsreihe - die Folge der Änderung eines Zeichens gemäß diskreten (diskontinuierlichen) Indikatoren).

Arithmetisch gewichteter Durchschnitt ( gewichteter Durchschnitt) weist keine grundsätzlichen Unterschiede zum einfachen arithmetischen Durchschnitt auf. Darin wird die Summierung desselben Werts durch Multiplikation dieses Werts mit seiner Häufigkeit ersetzt, d.h. dabei wird jeder Wert (Variante) nach Häufigkeit gewichtet.

Wenn wir also die durchschnittliche Arbeitsbelastung der Ermittler berechnen, müssen wir die Anzahl der Fälle mit der Anzahl der Ermittler multiplizieren, die genau so viele Fälle untersucht haben. Es ist normalerweise zweckmäßig, solche Berechnungen in Form von Tabellen darzustellen:

Tabelle 2.2

Zahl der Fälle

(Möglichkeit X)

Anzahl der Ermittler (Häufigkeit f)

Artwork-Option

zu Frequenzen ( Xf)

2. Berechnen Sie den tatsächlichen gewichteten Durchschnitt mit der Formel:

wo x- die Zahl der Strafsachen und f- Anzahl der Ermittler.

Der gewichtete Durchschnitt liegt also nicht bei 3,125, sondern bei 4,375. Wenn Sie darüber nachdenken, sollte es so sein: Die Belastung jedes einzelnen Ermittlers steigt dadurch, dass sich ein Ermittler in unserer hypothetischen Abteilung als Faulenzer herausstellte - oder im Gegenteil ein besonders wichtiges und untersuchte komplexer Fall. Aber die Frage der Interpretation der Ergebnisse einer statistischen Studie wird in Betracht gezogen nächstes Thema. In einigen Fällen, nämlich bei gruppierten Frequenzen diskrete Verteilung- Die Berechnung des Durchschnitts ist auf den ersten Blick nicht offensichtlich. Angenommen, wir müssen das arithmetische Mittel für die Verteilung der wegen Rowdytums verurteilten Personen nach Alter berechnen. Die Verteilung sieht so aus:

Tabelle 2.3

(Möglichkeit X)

Anzahl der Verurteilten (Häufigkeit f)

Intervallmittelpunkt

Artwork-Option

zu Frequenzen ( Xf)

(21-18) /2+18=19,5

Außerdem wird der Durchschnitt nach der allgemeinen Regel berechnet und beträgt für diese diskrete Reihe 23,6 Jahre. Bei den sog. offenen Zeilen, also in Situationen, in denen die äußersten Intervalle durch "weniger als" bestimmt werden x" oder mehr x" wird der Wert der extremen Intervalle ähnlich wie bei anderen Intervallen eingestellt.

3. Reihe von Dynamiken

Die von der Statistik untersuchten sozialen Phänomene sind in ständige Weiterentwicklung und ändern. Sozialrechtliche Indikatoren können nicht nur in statischer Form dargestellt werden, die ein bestimmtes Phänomen widerspiegelt, sondern auch als zeitlich und räumlich ablaufender Prozess sowie in Form der Wechselwirkung der untersuchten Merkmale. Mit anderen Worten, Zeitreihen zeigen die Entwicklung eines Merkmals, d.h. seine Veränderung in Zeit, Raum oder in Abhängigkeit von Umweltbedingungen.

Diese Reihe ist eine Folge von Durchschnittswerten in den angegebenen Zeiträumen (für jedes Kalenderjahr).

Für eine tiefere Untersuchung sozialer Phänomene und deren Analyse reicht ein einfacher Vergleich der Ebenen einer Reihe von Dynamiken nicht aus, es ist notwendig, die abgeleiteten Indikatoren einer Reihe von Dynamiken zu berechnen: absolutes Wachstum, Wachstumsrate, Wachstumsrate, Durchschnitt Wachstum und Wachstumsraten, den absoluten Gehalt von einem Prozent erhöhen.

Die Berechnung der Indikatoren der Dynamikreihe erfolgt auf der Grundlage eines Vergleichs ihrer Niveaus. In diesem Fall gibt es zwei Möglichkeiten, die Pegel der dynamischen Reihe zu vergleichen:

grundlegende Indikatoren, wenn alle nachfolgenden Ebenen mit einigen anfänglichen verglichen werden, die als Basis genommen werden;

Kettenindikatoren, wenn jede nachfolgende Ebene einer Reihe von Dynamiken mit der vorherigen verglichen wird.

Das absolute Wachstum zeigt, um wie viele Einheiten das Niveau der aktuellen Periode über oder unter dem Niveau der Basis- oder Vorperiode für einen bestimmten Zeitraum liegt.

Das absolute Wachstum (P) wird als Differenz zwischen den verglichenen Niveaus berechnet.

Absolutes Basiswachstum:

P b = j ich - j Basen . (f.1).

Absolutes Kettenwachstum:

P c = j ich - j ich -1 (f.2).

Die Wachstumsrate (Tr) zeigt, wie oft (um welchen Prozentsatz) das Niveau der aktuellen Periode über oder unter dem Niveau der Basis- oder Vorperiode liegt:

Basiswachstumsrate:

(f.3)

Kettenwachstumsrate:

(f.4)

Die Wachstumsrate (Tpr) zeigt an, um wie viel Prozent das Niveau der aktuellen Periode über oder unter dem Niveau der Basis- oder Vorperiode liegt, die als Vergleichsbasis genommen wird, und wird als Verhältnis des absoluten Wachstums zum absoluten Niveau berechnet , als Basis genommen.

Die Wachstumsrate kann auch berechnet werden, indem 100 % von der Wachstumsrate abgezogen werden.

Basiswachstumsrate:

oder (f.5)

Kettenwachstumsrate:

oder (f.6)

Die durchschnittliche Wachstumsrate wird nach der Formel des geometrischen Mittels der Wachstumsraten einer Reihe von Dynamiken berechnet:

(Formular 7)

wo ist die durchschnittliche Wachstumsrate;

- Wachstumsraten für bestimmte Zeiträume;

n- die Anzahl der Wachstumsraten.

Ähnliche Probleme mit einem Wurzelexponenten größer als drei werden in der Regel mit dem Logarithmus gelöst. Aus der Algebra ist bekannt, dass der Logarithmus der Wurzel ist gleich dem Logarithmus Wurzelwert dividiert durch den Wurzelexponenten, und dass der Logarithmus des Produkts mehrerer Faktoren ist gleich der Summe Logarithmen dieser Faktoren.

Somit wird die durchschnittliche Wachstumsrate durch Wurzelziehen berechnet n Grad aus den Werken des Einzelnen n- Kettenwachstumsraten. Die durchschnittliche Wachstumsrate ist die Differenz zwischen der durchschnittlichen Wachstumsrate und eins (), oder 100 %, wenn die Wachstumsrate in Prozent ausgedrückt wird:

oder

In Ermangelung einer dynamischen Reihe Zwischenstufen durchschnittliches Wachstum und Wachstumsraten werden durch die folgende Formel bestimmt:

(f.8)

wo ist die letzte Stufe der dynamischen Reihe;

- das Anfangsniveau der dynamischen Serie;

n - Anzahl der Ebenen (Daten).

Es ist offensichtlich, dass die mit den Formeln (f.7 und f.8) berechneten Indikatoren für durchschnittliche Wachstumsraten und Wachstum dieselben Zahlenwerte haben.

Der absolute Gehalt von 1 % Wachstum zeigt an, welcher absolute Wert 1 % Wachstum enthält und wird als Verhältnis des absoluten Wachstums zur Wachstumsrate berechnet.

Absoluter Gehalt von 1% Erhöhung:

einfach: (f.9)

Kette: (f.10)

Berechnung und Analyse absoluter Wert Jede prozentuale Erhöhung trägt zu einem tieferen Verständnis der Natur der Entwicklung des untersuchten Phänomens bei. Die Daten unseres Beispiels zeigen, dass trotz Schwankungen der Wachstumsraten auch das Wachstum übergeht einzelne Jahre, bleiben die Grundindikatoren des absoluten Gehalts von 1 % Wachstum unverändert, während die Kettenindikatoren, die die Änderungen des absoluten Werts von 1 % Wachstum in jedem Folgejahr im Vergleich zum Vorjahr kennzeichnen, kontinuierlich zunehmen.

Bei der Erstellung, Verarbeitung und Analyse von Zeitreihen besteht häufig die Notwendigkeit, die durchschnittlichen Werte der untersuchten Phänomene für bestimmte Zeiträume zu bestimmen. Die durchschnittliche chronologische Intervallreihe wird in gleichen Intervallen nach der Formel des arithmetischen Mittels einfach, mit ungleichen Intervallen - nach dem arithmetischen gewichteten Durchschnitt berechnet:

wo - Durchschnittsniveau Intervallreihe;

- Anfangsstufen der Serie;

n- Anzahl der Ebenen.

Für die Momentreihe der Dynamik wird der Durchschnittspegel unter der Voraussetzung, dass die Zeitintervalle zwischen den Daten gleich sind, mit der chronologischen Durchschnittsformel berechnet:

(f.11)

wo ist der durchschnittliche chronologische Wert;

j 1 ,., j n- das absolute Niveau der Reihe;

n - die Anzahl der absoluten Ebenen der Dynamikreihe.

Die durchschnittliche Chronologie der Ebenen der Momentreihe der Dynamik ist gleich der Summe der Indikatoren dieser Reihe, dividiert durch die Anzahl der Indikatoren ohne einen; In diesem Fall sollten die Anfangs- und Endstufen halbiert werden, da die Anzahl der Daten (Momente) normalerweise um eins höher ist als die Anzahl der Perioden.

Je nach Inhalt und Darstellungsform der Ausgangsdaten (Intervall oder Momentenreihe der Dynamik, gleiche oder keine Zeitintervalle) werden verschiedene berechnet soziale Indikatoren B. die durchschnittliche jährliche Anzahl von Straftaten und Straftaten (nach Art), die durchschnittliche Höhe des Betriebskapitals, die durchschnittliche Anzahl von Straftätern usw., verwenden Sie die entsprechenden analytischen Ausdrücke.

4. Statistische Methoden Zusammenhänge

In den vorherigen Fragen haben wir, wenn ich so sagen darf, die Analyse "eindimensionaler" Verteilungen - Variationsreihen - betrachtet. Dies ist eine sehr wichtige, aber bei weitem nicht die einzige Art der statistischen Analyse. Die Analyse von Variationsreihen ist die Grundlage für "fortgeschrittenere" Arten der statistischen Analyse, hauptsächlich für lernenVerbindungen. Als Ergebnis einer solchen Studie werden Ursache-Wirkungs-Beziehungen zwischen Phänomenen aufgedeckt, wodurch festgestellt werden kann, welche Änderungen der Vorzeichen die Variationen der untersuchten Phänomene und Prozesse beeinflussen. Gleichzeitig werden die Zeichen, die bei anderen eine Veränderung bewirken, als faktoriell (Faktoren) bezeichnet, und die Zeichen, die sich unter ihrem Einfluss ändern, werden als wirksam bezeichnet.

In der statistischen Wissenschaft gibt es zwei Arten von Beziehungen zwischen verschiedene Zeichen und deren Informationen - funktionaler Zusammenhang (starr bestimmt) und statistisch (stochastisch).

Zum funktionellVerbindungen Charakteristisch ist die vollständige Übereinstimmung zwischen der Änderung des Faktorattributs und der Änderung des Effektivwerts. Diese Beziehung manifestiert sich gleichermaßen in allen Einheiten jeder Bevölkerung. Einfachstes Beispiel: Eine Temperaturerhöhung spiegelt sich im Quecksilbervolumen eines Thermometers wider. In diesem Fall wirkt die Umgebungstemperatur als Faktor und das Quecksilbervolumen als wirksames Merkmal.

Funktionale Zusammenhänge sind typisch für Phänomene, die von Wissenschaften wie Chemie, Physik, Mechanik untersucht werden, in denen es möglich ist, "reine" Experimente aufzubauen, in denen der Einfluss äußerer Faktoren eliminiert wird. Die Sache ist die funktionelle Verbindung zwischen den beiden ist nur möglich, wenn der zweite Wert (das resultierende Attribut) davon abhängt nur und ausschließlich vom ersten. Bei öffentlichen Veranstaltungen ist dies äußerst selten.

Sozialrechtliche Prozesse, die das Ergebnis der gleichzeitigen Einwirkung sind eine große Anzahl Faktoren werden durch statistische Zusammenhänge, also Relationen, beschrieben stochastisch (zufällig) deterministisch wenn unterschiedliche Werte einer Variablen unterschiedlichen Werten einer anderen Variablen entsprechen.

Der wichtigste (und häufigste) Fall einer stochastischen Abhängigkeit ist KorrelationSucht. Bei einer solchen Abhängigkeit bestimmt die Ursache die Wirkung nicht eindeutig, sondern nur mit einer gewissen Wahrscheinlichkeit. Der Identifizierung solcher Beziehungen ist eine eigene Art der statistischen Analyse gewidmet – die Korrelationsanalyse.

Hauptsächlich eine Aufgabe Korrelationsanalyse - auf der Grundlage streng mathematischer Methoden, um einen quantitativen Ausdruck der Beziehung zu ermitteln, die zwischen den untersuchten Merkmalen besteht. Es gibt mehrere Ansätze, wie genau die Korrelation berechnet wird, und dementsprechend mehrere Arten von Korrelationskoeffizienten: den Kontingenzkoeffizienten A.A. Chuprov (zur Messung der Beziehung zwischen qualitativen Merkmalen), der Assoziationskoeffizient von K. Pearson sowie die Rangkorrelationskoeffizienten von Spearman und Kendall. Im allgemeinen Fall zeigen solche Koeffizienten die Wahrscheinlichkeit, mit der die untersuchten Zusammenhänge auftreten. Dementsprechend ist die Beziehung zwischen den Merkmalen umso ausgeprägter, je höher der Koeffizient ist.

Zwischen den untersuchten Faktoren können sowohl direkte als auch inverse Korrelationen bestehen. GeradeKorrelationSucht beobachtet in Fällen, in denen die Änderung der Werte des Faktors den gleichen Änderungen des Werts des resultierenden Attributs entspricht, dh wenn der Wert des Faktorattributs zunimmt, steigt auch der Wert des effektiven Attributs und umgekehrt umgekehrt. So besteht beispielsweise ein direkter Zusammenhang zwischen kriminogenen Faktoren und Kriminalität ( mit „+“-Zeichen). Wenn eine Erhöhung der Werte eines Attributs zu umgekehrten Änderungen der Werte eines anderen führt, wird eine solche Beziehung aufgerufen umkehren. Je höher beispielsweise die soziale Kontrolle in einer Gesellschaft ist, desto niedriger ist die Kriminalitätsrate (Verbindung mit dem „-“-Zeichen).

Sowohl Direkt als auch Feedback können gerade und krummlinig sein.

Geradlinig ( lineare) Beziehungen treten auf, wenn bei einem Anstieg der Werte des Attributfaktors der Wert der Attributfolge zunimmt (direkt) oder abnimmt (umgekehrt). Mathematisch wird eine solche Beziehung durch die Regressionsgleichung ausgedrückt: bei = a + bX, wo bei - Zeichenfolge; a und b - entsprechende Kopplungskoeffizienten; X - Vorzeichenfaktor.

Krummlinig Verbindungen sind unterschiedlich. Eine Erhöhung des Werts eines Faktorattributs wirkt sich ungleichmäßig auf den Wert des resultierenden Attributs aus. Diese Verbindung kann zunächst direkt und dann umgekehrt sein. Ein bekanntes Beispiel ist der Zusammenhang von Straftaten mit dem Alter der Täter. Erstens wächst die kriminelle Aktivität von Einzelpersonen direkt proportional zum Alter der Täter (bis zu etwa 30 Jahren), und dann nimmt die kriminelle Aktivität mit zunehmendem Alter ab. Außerdem ist der Scheitelpunkt der Verteilungskurve der Täter nach Alter vom Durchschnitt nach links (hin zu einem jüngeren Alter) verschoben und asymmetrisch.

Korrelation direkte Links sein können einesumFakultät, wenn der Zusammenhang zwischen einem Merkmalsfaktor und einer Merkmalsfolge untersucht wird (Paarkorrelation). Das können sie auch sein multifaktoriell, wenn der Einfluss vieler interagierender Vorzeichenfaktoren auf die Vorzeichenfolge (Mehrfachkorrelation) untersucht wird.

Aber egal welcher der Korrelationskoeffizienten verwendet wird, egal welche Korrelation untersucht wird, es ist unmöglich, eine Beziehung zwischen den Zeichen herzustellen, die nur auf statistischen Indikatoren basiert. Die Erstanalyse von Indikatoren ist immer eine Analyse qualitativ, in der die sozio-rechtliche Natur des Phänomens untersucht und verstanden wird. Dabei werden jene wissenschaftlichen Methoden und Ansätze verwendet, die für den Wissenschaftszweig, der sich mit diesem Phänomen beschäftigt (Soziologie, Jura, Psychologie etc.), charakteristisch sind. Die Analyse von Gruppierungen und Durchschnitten ermöglicht es Ihnen dann, Hypothesen aufzustellen, Modelle zu erstellen, die Art der Verbindung und Abhängigkeit zu bestimmen. Erst danach wird das quantitative Merkmal der Abhängigkeit bestimmt – nämlich der Korrelationskoeffizient.

Literatur

1. Avanesov G.A. Grundlagen der kriminologischen Prognose. Lernprogramm. Moskau: Höhere Schule des Innenministeriums der UdSSR, 1970.

2. Avrutin K.E., Gilinsky Ya.I. Kriminologische Analyse der Kriminalität in der Region: Methodik, Technik, Technik. L., 1991.

3. Adamov E. et al., Ökonomie und Statistik von Unternehmen: Lehrbuch / Ed. SD Iljenkowa. M.: Finanzen und Statistik, 2008.

4. Balakina N.N. Statistik: Proc. - Methode. Komplex. Chabarowsk: IVESEP, Niederlassung in Chabarowsk, 2008.

5. Bluvshtein Yu.D., Volkov G.I. Zeitfolgen Kriminalität: Ein Studienführer . Minsk, 1984.

6. Borovikov V.P., Borovikov I.P. STATISTICA - Statistische Analyse und Datenverarbeitung in Windows-Umgebung. M.: Informations- und Verlag "Filin", 1997.

7. Borodin S.V. Bekämpfung der Kriminalität: theoretisches Modell umfassendes Programm. Moskau: Nauka, 1990.

8. Fragen der Statistik // Monatliche Wissenschafts- und Informationszeitschrift des Staatlichen Komitees für Statistik der Russischen Föderation M., 2002-2009.

9. Gusarov V.M. Statistik: Proc. Zuschuss für Universitäten. M.: UNITI-DANA, 2009.

10. Dobrynina N.V., Nimenya I.N. Statistik: Proc. - Methode. Beihilfe. St. Petersburg: SPbGIEU, 2009.

11. Eliseeva I.I., Yuzbashev M.M. Allgemeine Theorie Statistik: Lehrbuch für Universitäten / Ed.I. I. Eliseeva, 4. Aufl. M.: Finanzen und Statistik, 1999.

12. Eliseeva I.I., Yuzbashev M.M. Allgemeine Theorie der Statistik: Lehrbuch. - M.: Finanzen und Statistik, 1995.

13. Eremina T., Matyatina V., Plushevskaya Yu Probleme der Entwicklung von Sektoren der russischen Wirtschaft // Wirtschaftsfragen. 2009. Nr. 7.

14. Efimova M.R., Ganchenko O.I., Petrova E.V. Workshop zur allgemeinen Theorie der Statistik: Proc. Zulage 2. Aufl., überarbeitet. und zusätzlich M.: Finanzen und Statistik, 2009.

15. Efimova M.R., Petrova E.V., Rumyantsev V.N. Allgemeine Theorie der Statistik: Lehrbuch. - M.: INFRA-M, 1998.

16. Kirillov L.A. Kriminologische Studie und Kriminalprävention durch Organe für innere Angelegenheiten M., 1992.

17. Kosoplechev N.P., Methoden der kriminologischen Forschung. M., 1984.

18. Lee D.A. Kriminalität in Russland: Systemanalyse. M., 1997.

19. Lee D.A. Kriminalstatistische Rechnungslegung: Strukturelle und funktionelle Muster. M .: Informations- und Verlagsagentur "Russische Welt", 1998.

20. Makarova N.V., Trofimets V.Ya. Statistik in Excel: Proc. Beihilfe. M.: Finanzen und Statistik, 2009.

21. Nesterov L.I. Neue Tendenzen in der Volksvermögensstatistik // Fragen der Statistik. 2008. Nr. 11.

22. Petrova EV ua Workshop zur Verkehrsstatistik: Proc. Beihilfe. M.: Finanzen und Statistik, 2008.

23. Kriminalität in Russland in den neunziger Jahren und einige Aspekte der Legalität und deren Bekämpfung. M., 1995.

24. Kriminalität, Statistik, Recht // Ed. Prof. KI Schulden. Moskau: Kriminologische Vereinigung, 1997.

25. Rostow K.T. Kriminalität in den Regionen Russlands (soziale und kriminologische Analyse). St. Petersburg: St. Petersburger Akademie des Innenministeriums Russlands, 1998.

26. Richtlinien für den Volkszähler zum Verfahren zur Durchführung der gesamtrussischen Volkszählung 2002 und zum Ausfüllen der Volkszählungsunterlagen. M.: PIK „Offset“, 2003.

27. Savyuk L.K. Rechtsstatistik: Lehrbuch. M.: Jurist, 1999.

28. Salin V. N., Shpakovskaya E. P. Sozioökonomische Statistik: Lehrbuch für Universitäten. Moskau: Rechtsanwalt Gardanika, 2008.

29. Sidenko A.V., Popov G.Yu., Matveeva V.M. Statistik: Lehrbuch. Moskau: Geschäft und Dienstleistung, 2008.

30. Soziale Straftatenprävention: Ratschläge, Empfehlungen // Ed. JAWOHL. Kerimow. M., 1989.

31. Sozialstatistik: Lehrbuch für Universitäten // Ed. ich.ich Eliseeva. 3. Aufl. M.: Finanzen und Statistik, 2009.

Gehostet auf Allbest.ru

Ähnliche Dokumente

    Berücksichtigung der wichtigsten Methoden der statistischen Analyse. Studie des Stadtbezirks Kungursky. Durchführung von Berechnungen nach den Indikatoren des Jahrbuchs. Analyse der demografischen und sozioökonomischen Entwicklung des Gebiets auf der Grundlage der Ergebnisse des Antrags.

    Seminararbeit, hinzugefügt am 24.06.2015

    Durchschnittswert - freie Eigenschaft Gesetzmäßigkeiten des Prozesses unter den Bedingungen, unter denen er stattfindet. Formen und Methoden zur Berechnung von Durchschnittswerten. Mittelwerte in der Praxis anwenden: Differenzierung berechnen Löhne nach Wirtschaftszweigen.

    Seminararbeit, hinzugefügt am 04.12.2007

    Statistische Methoden der Scheidungsanalyse. Statistische Analyse von Scheidungen in der Amur-Region. Analyse der Dynamik und Struktur von Scheidungen. Gruppierung der Städte und Bezirke der Region Amur nach der Anzahl der Scheidungen pro Jahr. Berechnung von Durchschnittswerten und Variationsindikatoren.

    Seminararbeit, hinzugefügt am 12.04.2014

    Aspekte der statistischen Analyse der Wohnungsversorgung. Anwendung statistischer Methoden zur Analyse der Wohnversorgung der Bevölkerung. Analyse der Homogenität der Bevölkerung von Kreisen in Bezug auf den demografischen Belastungsgrad. Korrelations-Regressionsanalyse.

    Seminararbeit, hinzugefügt am 18.01.2009

    Organisation staatliche Statistiken in Russland. Anforderungen an die erhobenen Daten. Formen, Arten und Methoden der statistischen Beobachtung. Vorbereitung der statistischen Beobachtung. Fehler der statistischen Beobachtung. Methoden zur Überwachung von Statistiken.

    Zusammenfassung, hinzugefügt am 02.12.2007

    Entwicklung eines Überwachungsprogramms für die Strafrechtsstatistik, seine wichtigsten Phasen und Anforderungen, Methoden und Verfahren zur Umsetzung. Ermittlung der Kriminalitätslage im Untersuchungsgebiet. Regeln für die Registrierung der Ergebnisse der statistischen Beobachtung.

    Test, hinzugefügt am 18.05.2010

    Klassifizierung der statistischen Dokumentation. Arten von Dokumenten: schriftliche, ikonografische, statistische und phonetische. Methoden und Wege der Materialanalyse: nicht-formalisiert (traditionell) und formalisiert. Das Verfahren zur Durchführung der Inhaltsanalyse.

    Präsentation, hinzugefügt am 16.02.2014

    Konzept mittlere Größe. Die Methode der Mittelwerte in der Untersuchung sozialer Phänomene. Die Relevanz der Anwendung der Mittelwertmethode bei der Untersuchung sozialer Phänomene wird durch die Möglichkeit sichergestellt, vom Singular zum Allgemeinen, vom Zufall zum Regelmäßigen überzugehen.

    Seminararbeit, hinzugefügt am 13.01.2009

    Das Konzept der statistischen Beobachtung. Analyse von geradlinigen und krummlinigen Korrelationen. Bekanntschaft mit Formeln und Werten der statistischen Beobachtung. Analyse von Berechnungen der Beziehung von Indizes, Konstruktion eines Histogramms, Elemente einer Verteilungsreihe.

    Test, hinzugefügt am 27.03.2012

    Merkmale der Hauptindikatoren der statistischen Analyse Soziale Konditionierung Gesundheitswesen in Russische Föderation. Ebenen der Gesundheitsbewertung aus sozialmedizinischer Sicht. Einteilung des Anteils der Kinder an der Bevölkerung nach Gesundheitsgruppen.

Ausreichend detailliert in heimische Literatur. In der Praxis russischer Unternehmen werden sie inzwischen nur noch zum Teil eingesetzt. Betrachten Sie als nächstes einige Methoden statistische Verarbeitung.

Allgemeine Information

In der Praxis inländischer Unternehmen ist es überwiegend üblich statistische Kontrollmethoden. Wenn wir über die Regulierung des technologischen Prozesses sprechen, wird dies äußerst selten bemerkt. Anwendung statistischer Methoden sieht vor, dass im Unternehmen eine Gruppe von Fachkräften mit entsprechender Qualifikation gebildet wird.

Bedeutung

Gemäß ISO-Ser. 9000 muss der Lieferant den Bedarf an statistischen Methoden ermitteln, die während der Entwicklung, Regulierung und Prüfung von Möglichkeiten angewendet werden Herstellungsprozess und Produkteigenschaften. Die verwendeten Methoden basieren auf der Wahrscheinlichkeitstheorie und mathematischen Berechnungen. Statistische Methoden zur Datenanalyse kann in jeder Phase des Produktlebenszyklus implementiert werden. Sie liefern eine Bewertung und Darstellung des Heterogenitätsgrades von Produkten oder der Variabilität ihrer Eigenschaften in Bezug auf die etablierten Bezeichnungen oder geforderten Werte sowie die Variabilität des Prozesses ihrer Entstehung. Statistische Methoden sind Methoden, mit denen Sie können Genauigkeit gegeben und Zuverlässigkeit, um den Zustand der untersuchten Phänomene zu beurteilen. Sie ermöglichen es Ihnen, bestimmte Probleme vorherzusagen und optimale Lösungen auf der Grundlage der untersuchten Fakten, Trends und Muster zu entwickeln.

Gebrauchsanweisung

Die wichtigsten Bereiche, in denen es weit verbreitet ist statistische Methoden sind:


Praxis der entwickelten Länder

Statistische Methoden sind eine Basis, die die Herstellung von Produkten mit hohen Verbrauchereigenschaften gewährleistet. Diese Techniken sind in Industrieländern weit verbreitet. Statistische Methoden sind in der Tat Garantien dafür, dass Verbraucher Produkte erhalten, die den festgelegten Anforderungen entsprechen. Die Wirkung ihrer Anwendung hat sich in der Praxis bewährt. Industrieunternehmen Japan. Sie haben dazu beigetragen, das höchste Produktionsniveau in diesem Land zu erreichen. Langjährige Auslandserfahrungen zeigen, wie effektiv diese Techniken sind. Insbesondere ist bekannt, dass Hewlelt Packard mit statistischen Methoden in einem der Fälle die Zahl der Eheschließungen pro Monat von 9.000 auf 45 Einheiten reduzieren konnte.

Schwierigkeiten bei der Umsetzung

In der heimischen Praxis gibt es eine Reihe von Hindernissen, die den Einsatz nicht zulassen statistische Untersuchungsmethoden Indikatoren. Schwierigkeiten entstehen durch:


Programm Entwicklung

Es muss gesagt werden, dass die Bestimmung des Bedarfs an bestimmten statistischen Methoden im Bereich Qualität, Auswahl und Beherrschung bestimmter Techniken für jedes inländische Unternehmen eine ziemlich komplizierte und langwierige Aufgabe ist. Zur effektiven Umsetzung empfiehlt es sich, ein spezielles Langzeitprogramm zu entwickeln. Es soll die Bildung eines Dienstes vorsehen, dessen Aufgaben die Organisation u methodischer Leitfaden Anwendung statistischer Methoden. Im Rahmen des Programms ist es notwendig, für die Ausstattung mit geeigneten technischen Mitteln, die Ausbildung von Spezialisten und die Bestimmung der Zusammensetzung der Produktionsaufgaben zu sorgen, die mit den ausgewählten Methoden gelöst werden sollen. Das Mastering wird empfohlen, um mit den einfachsten Ansätzen zu beginnen. Sie können beispielsweise die bekannte Elementarproduktion verwenden. Anschließend ist es ratsam, zu anderen Methoden überzugehen. Beispielsweise kann es sich um Varianzanalysen, selektive Verarbeitung von Informationen, Regulierung von Prozessen, Planung von faktoriellen Forschungen und Experimenten usw. handeln.

Einstufung

Statistische Methoden der Wirtschaftsanalyse umfassen verschiedene Tricks. Unnötig zu erwähnen, dass es einige davon gibt. Ein führender Experte auf dem Gebiet des Qualitätsmanagements in Japan, K. Ishikawa, empfiehlt jedoch die Verwendung von sieben grundlegenden Methoden:

  1. Pareto-Diagramme.
  2. Gruppieren von Informationen nach gemeinsamen Merkmalen.
  3. Kontrollkarten.
  4. Ursache-Wirkungs-Diagramme.
  5. Histogramme.
  6. Kontrollblätter.
  7. Streudiagramme.

Basierend auf seiner eigenen Erfahrung im Bereich Management behauptet Ishikawa, dass 95 % aller Fragen und Probleme im Unternehmen mit diesen sieben Ansätzen gelöst werden können.

Pareto-Diagramm

Dieser basiert auf einem bestimmten Verhältnis. Es wurde das „Pareto-Prinzip“ genannt. Ihm zufolge treten von 20 % der Ursachen 80 % der Folgen auf. zeigt auf klare und verständliche Weise den relativen Einfluss der einzelnen Umstände auf häufiges Problem in absteigender Reihenfolge. Diese Auswirkung kann anhand der Anzahl von Verlusten und Defekten untersucht werden, die durch jede Ursache hervorgerufen werden. Der relative Einfluss wird durch Balken dargestellt, der kumulierte Einfluss der Faktoren durch eine kumulierte Gerade.

Ursache-Wirkungs-Diagramm

Darauf wird das untersuchte Problem üblicherweise in Form eines horizontalen geraden Pfeils dargestellt, und die Bedingungen und Faktoren, die es indirekt oder direkt beeinflussen, sind in Form von schrägen Pfeilen dargestellt. Beim Bauen sollten auch scheinbar unbedeutende Umstände berücksichtigt werden. Dies liegt daran, dass es in der Praxis nicht selten Fälle gibt, in denen die Lösung des Problems durch den Ausschluss mehrerer scheinbar unbedeutender Faktoren sichergestellt wird. Die Gründe, die die Hauptumstände (der ersten und der nachfolgenden Anordnungen) beeinflussen, sind im Diagramm mit horizontalen kurzen Pfeilen dargestellt. Das detaillierte Diagramm hat die Form eines Fischskeletts.

Informationen gruppieren

Dies Wirtschaftsstatistische Methode wird verwendet, um eine Reihe von Indikatoren zu organisieren, die durch Bewertung und Messung eines oder mehrerer Parameter eines Objekts erhalten wurden. In der Regel werden solche Informationen in Form einer ungeordneten Folge von Werten dargestellt. Dies können die linearen Abmessungen des Werkstücks, der Schmelzpunkt, die Härte des Materials, die Anzahl der Fehler usw. sein. Ausgehend von einem solchen System ist es schwierig, Rückschlüsse auf die Eigenschaften des Produkts oder die Prozesse seiner Entstehung zu ziehen. Die Bestellung erfolgt über Liniendiagramme. Sie zeigen deutlich die Veränderungen der beobachteten Parameter über einen bestimmten Zeitraum.

Lösungsblatt

In der Regel wird es in Form einer Häufigkeitsverteilungstabelle für das Auftreten der Messwerte der Objektparameter in den entsprechenden Intervallen dargestellt. Je nach Zweck der Studie werden Checklisten zusammengestellt. Der Bereich der Indikatorwerte ist in gleiche Intervalle unterteilt. Ihre Anzahl wird normalerweise gleich der Quadratwurzel aus der Anzahl der durchgeführten Messungen gewählt. Das Formular sollte einfach sein, um Probleme beim Ausfüllen, Lesen und Kontrollieren zu vermeiden.

Balkendiagramm

Es wird in Form eines Stufenpolygons dargestellt. Es zeigt deutlich die Verteilung der Messindikatoren. Bereich Werte einstellen wird in gleiche Intervalle unterteilt, die entlang der x-Achse gelegt werden. Für jedes Intervall wird ein Rechteck aufgebaut. Seine Höhe ist gleich der Häufigkeit des Auftretens des Werts im gegebenen Intervall.

Streudiagramme

Sie werden verwendet, um die Hypothese über die Beziehung zwischen zwei zu testen Variablen. Das Modell ist wie folgt aufgebaut. Der Wert eines Parameters ist auf der Abszissenachse aufgetragen, und der Wert eines anderen Indikators ist auf der Ordinate aufgetragen. Als Ergebnis erscheint ein Punkt auf dem Diagramm. Diese Aktionen werden für alle Werte der Variablen wiederholt. Wenn eine Beziehung besteht, wird das Korrelationsfeld erweitert, und die Richtung stimmt nicht mit der Richtung der y-Achse überein. Wenn es keine Beschränkung gibt, ist es parallel zu einer der Achsen oder hat die Form eines Kreises.

Kontrollkarten

Sie werden verwendet, wenn ein Prozess über einen bestimmten Zeitraum bewertet wird. Die Erstellung von Regelkarten basiert auf folgenden Bestimmungen:

  1. Alle Prozesse weichen mit der Zeit von den eingestellten Parametern ab.
  2. Der instabile Verlauf des Phänomens ändert sich nicht zufällig. Abweichungen, die über die Grenzen der erwarteten Grenzen hinausgehen, sind nicht zufällig.
  3. Individuelle Veränderungen können vorhergesagt werden.
  4. Ein stabiler Prozess kann zufällig innerhalb der erwarteten Grenzen abweichen.

Einsatz in der Praxis russischer Unternehmen

Es sollte gesagt werden, dass die in- und ausländischen Erfahrungen zeigen, dass die effektivste statistische Methode zur Bewertung der Stabilität und Genauigkeit von Geräten und technologischen Prozessen die Erstellung von Regelkarten ist. Dieses Verfahren wird auch bei der Regulierung von Produktionspotentialkapazitäten verwendet. Beim Erstellen von Karten ist es notwendig, den zu untersuchenden Parameter richtig auszuwählen. Es wird empfohlen, solche Indikatoren zu bevorzugen, die in direktem Zusammenhang mit der bestimmungsgemäßen Verwendung des Produkts stehen, leicht messbar sind und durch die Prozesssteuerung beeinflusst werden können. Wenn eine solche Wahl schwierig oder nicht gerechtfertigt ist, ist es möglich, die mit dem kontrollierten Parameter korrelierten (interrelierten) Werte zu bewerten.

Nuancen

Wenn die Messung von Indikatoren mit der für die Abbildung nach einem quantitativen Kriterium erforderlichen Genauigkeit wirtschaftlich oder technisch nicht möglich ist, wird ein alternatives Zeichen verwendet. Begriffe wie „Ehe“ und „Defekt“ sind damit verbunden. Letzteres wird als jede einzelne Nichterfüllung des Produkts mit den festgelegten Anforderungen verstanden. Die Ehe ist ein Produkt, dessen Bereitstellung an Verbraucher aufgrund von Mängeln nicht gestattet ist.

Besonderheiten

Jeder Kartentyp hat seine eigenen Besonderheiten. Dies muss bei der Auswahl für einen bestimmten Fall berücksichtigt werden. Karten werden nach quantitativen Kriterien als empfindlicher gegenüber Prozessänderungen angesehen als solche, die eine alternative Funktion verwenden. Erstere sind jedoch arbeitsintensiver. Sie werden verwendet für:

  1. Prozess-Debugging.
  2. Bewertung der Möglichkeiten der Technologieeinführung.
  3. Überprüfung der Genauigkeit der Ausrüstung.
  4. Toleranzdefinitionen.
  5. Mehrere Zuordnungen akzeptable Wege Produkterstellung.

Zusätzlich

Wenn die Störung des Prozesses durch die Verschiebung des gesteuerten Parameters gekennzeichnet ist, müssen X-Maps verwendet werden. Bei zunehmender Wertestreuung sollten R- oder S-Modelle gewählt werden. Dabei sind jedoch einige Besonderheiten zu berücksichtigen. Insbesondere die Verwendung von S-Karten wird es ermöglichen, die Unordnung des Prozesses genauer und schneller festzustellen als R-Modelle mit denselben, gleichzeitig erfordert die Konstruktion der letzteren keine komplexen Berechnungen.

Fazit

In den Wirtschaftswissenschaften ist es möglich, die Faktoren zu untersuchen, die sich im Laufe der Zeit ergeben qualitative Bewertung, in Raum und Dynamik. Sie können verwendet werden, um Vorhersageberechnungen durchzuführen. Statistische Methoden der Wirtschaftsanalyse beinhalten keine Methoden zur Bewertung der Ursache-Wirkungs-Beziehungen wirtschaftlicher Prozesse und Ereignisse, zur Identifizierung vielversprechender und ungenutzter Reserven zur Verbesserung der Leistung. Mit anderen Worten, faktorielle Techniken sind in den betrachteten Ansätzen nicht enthalten.

Statistiken"Bio-Statistiken".

1. nominell;
2. Ordnungszahl;
3. Intervall;

Proben

Vertreter

Musterrahmen einfache Zufallsstichprobe Intervallabtastung

geschichtete Stichprobe

Cluster und Stichprobenquote

Nullhypothese

alternative Hypothese Energie

Vertrauensstufe».


Titel: Grundlagen der statistischen Datenanalyse
Detaillierte Beschreibung:

Nach Abschluss jeglicher wissenschaftlicher Grundlagen- oder experimenteller Forschung wird eine statistische Analyse der erhaltenen Daten durchgeführt. Damit die statistische Analyse erfolgreich durchgeführt und die Aufgaben gelöst werden können, muss die Studie richtig geplant werden. Daher ist es ohne Verständnis der Grundlagen der Statistik unmöglich, die Ergebnisse eines wissenschaftlichen Experiments zu planen und zu verarbeiten. Dennoch, medizinische Ausbildung vermittelt nicht nur Statistikwissen, sondern auch die Grundlagen höhere Mathematik. Daher kann man sehr oft auf die Meinung stoßen, dass sich nur ein Statistiker mit der statistischen Verarbeitung in der biomedizinischen Forschung befassen sollte und ein medizinischer Forscher sich auf seine eigenen medizinischen Fragen konzentrieren sollte. wissenschaftliche Arbeit. Eine solche Arbeitsteilung, die eine Unterstützung bei der Datenanalyse impliziert, ist durchaus gerechtfertigt. Ein Verständnis der Statistikprinzipien ist jedoch zumindest erforderlich, um eine falsche Problemstellung für einen Spezialisten zu vermeiden, mit dem die Kommunikation vor Beginn der Studie ebenso wichtig ist wie in der Phase der Datenverarbeitung.

Bevor wir über die Grundlagen der statistischen Analyse sprechen, ist es notwendig, die Bedeutung des Begriffs " Statistiken". Es gibt viele Definitionen, aber die vollständigste und prägnanteste ist unserer Meinung nach die Definition der Statistik als „die Wissenschaft der Erhebung, Darstellung und Analyse von Daten“. Die Verwendung von Statistiken in Anwendungen für die lebende Welt wiederum wird als "Biometrie" oder " Bio-Statistiken".

Es sei darauf hingewiesen, dass die Statistik sehr oft nur auf die Verarbeitung experimenteller Daten reduziert wird, ohne auf die Phase ihrer Gewinnung zu achten. Statistische Kenntnisse sind jedoch bereits bei der Planung des Experiments notwendig, damit die dabei gewonnenen Indikatoren dem Forscher zur Verfügung stehen können verlässliche Informationen. Daher können wir sagen, dass die statistische Analyse der Ergebnisse des Experiments bereits vor Beginn der Studie beginnt.

Bereits in der Phase der Entwicklung eines Plans sollte der Forscher klar verstehen, welche Art von Variablen in seiner Arbeit enthalten sein werden. Alle Variablen können in zwei Klassen eingeteilt werden: qualitativ und quantitativ. Welchen Bereich eine Variable annehmen kann, hängt von der Messskala ab. Es gibt vier Hauptskalen:

1. nominell;
2. Ordnungszahl;
3. Intervall;
4. rational (Skala der Beziehungen).

In der Nominalskala (der Skala der „Namen“) gibt es nur Symbole zur Beschreibung einiger Klassen von Objekten, zum Beispiel „Geschlecht“ oder „Beruf des Patienten“. Die Nominalskala impliziert, dass die Variable Werte annehmen wird, zwischen denen keine quantitativen Beziehungen bestimmt werden können. Daher ist es unmöglich, eine mathematische Beziehung zwischen dem männlichen und dem weiblichen Geschlecht herzustellen. Herkömmliche numerische Bezeichnungen (Frauen - 0, Männer - 1 oder umgekehrt) werden absolut willkürlich vergeben und sind nur für die Computerverarbeitung bestimmt. Die Nominalskala ist qualitativ in ihrer reinsten Form, einzelne Kategorien in dieser Skala werden durch Häufigkeiten (Anzahl oder Anteil der Beobachtungen, Prozentsätze) ausgedrückt.

Die ordinale (ordinale) Skala sieht vor, dass einzelne Kategorien darin aufsteigend oder absteigend angeordnet werden können. Ein klassisches Beispiel für eine Ordinalskala in der medizinischen Statistik ist die Abstufung der Schwere einer Erkrankung. In diesem Fall können wir zwar den Schweregrad aufsteigend aufbauen, haben aber immer noch nicht die Möglichkeit quantitative Zusammenhänge anzugeben, d.h. der Abstand zwischen den gemessenen Werten in der Ordinalskala ist unbekannt oder spielt keine Rolle. Es ist einfach, die Reihenfolge der Werte der Variablen „Schweregrad“ festzulegen, aber es ist unmöglich festzustellen, wie oft sich ein schwerer Zustand von einem mittelschweren Zustand unterscheidet.

Die Ordinalskala bezieht sich auf das Geschlecht quantitative Typen Daten und deren Abstufungen können sowohl durch Häufigkeiten (wie in einer qualitativen Skala) als auch durch Maße beschrieben werden zentrale Werte auf die wir uns im Folgenden konzentrieren werden.

Intervall- und rationale Skalen sind rein quantitative Datentypen. In der Intervallskala können wir bereits feststellen, wie stark sich ein Wert einer Variablen von einem anderen unterscheidet. Eine Erhöhung der Körpertemperatur um 1 Grad Celsius bedeutet also immer eine Erhöhung der abgegebenen Wärme um eine festgelegte Anzahl von Einheiten. In der Intervallskala gibt es jedoch sowohl positive als auch negative Werte(kein absoluter Nullpunkt). In diesem Zusammenhang kann man nicht sagen, dass 20 Grad doppelt so warm sind wie 10. Wir können nur sagen, dass 20 Grad so viel wärmer sind wie 30 wärmer als 20.

Die rationale Skala (die Verhältnisskala) hat nur einen Bezugspunkt positive Werte. In der Medizin sind die meisten rationalen Skalen Konzentrationen. Beispielsweise ist ein Glukosespiegel von 10 mmol/L die doppelte Konzentration im Vergleich zu 5 mmol/L. Für die Temperatur ist die rationale Skala die Kelvin-Skala, auf der es den absoluten Nullpunkt gibt (Abwesenheit von Wärme).

Es sollte hinzugefügt werden, dass jede quantitative Variable kontinuierlich sein kann, wie im Fall der Messung der Körpertemperatur (dies ist eine kontinuierliche Intervallskala), oder diskret, wenn wir die Anzahl der Blutzellen oder der Nachkommen von Labortieren zählen (dies ist eine diskrete rationale Skala).

Diese Unterschiede sind von entscheidender Bedeutung für die Wahl der Methoden zur statistischen Analyse experimenteller Ergebnisse. Für nominale Daten ist also der Chi-Quadrat-Test anwendbar, und der bekannte Student-Test erfordert, dass die Variable (Intervall oder rational) stetig ist.

Nachdem die Frage nach dem Typ der Variablen geklärt ist, muss mit dem Formieren begonnen werden Proben. Eine Stichprobe ist eine kleine Gruppe von Objekten einer bestimmten Klasse (in der Medizin eine Population). Um absolut genaue Daten zu erhalten, müssen alle Objekte einer bestimmten Klasse untersucht werden. Aus praktischen (oft finanziellen) Gründen wird jedoch nur ein Teil der Bevölkerung untersucht, der als Stichprobe bezeichnet wird. Die statistische Analyse ermöglicht es dem Forscher künftig, die erhaltenen Muster mit einem gewissen Grad an Genauigkeit auf die gesamte Bevölkerung auszudehnen. Tatsächlich zielen alle biomedizinischen Statistiken darauf ab, mit möglichst wenigen Beobachtungen möglichst genaue Ergebnisse zu erzielen, denn bei der Forschung am Menschen spielt auch eine ethische Frage eine Rolle. Wir können es uns nicht leisten, Risiken einzugehen große Menge Patienten als nötig.

Die Erstellung einer Probe wird durch eine Reihe zwingender Anforderungen geregelt, deren Verletzung zu falschen Schlussfolgerungen aus den Ergebnissen der Studie führen kann. Zunächst ist die Stichprobengröße wichtig. Die Genauigkeit der Schätzung der untersuchten Parameter hängt von der Stichprobengröße ab. Das Wort "Genauigkeit" sollte hier berücksichtigt werden. Wie mehr Größen der untersuchten Gruppen, desto genauere (aber nicht unbedingt korrekte) Ergebnisse erhält der Wissenschaftler. Damit die Ergebnisse von Stichprobenuntersuchungen auf die gesamte Bevölkerung übertragbar sind, muss die Stichprobe sein Vertreter. Die Repräsentativität der Stichprobe impliziert, dass sie alle wesentlichen Eigenschaften der Grundgesamtheit widerspiegelt. Das heißt, in den untersuchten Gruppen finden sich Personen unterschiedlichen Geschlechts, Alters, Berufes, sozialen Status etc. mit der gleichen Häufigkeit wie in der Gesamtbevölkerung.

Bevor man jedoch mit der Auswahl der Studiengruppe beginnt, sollte man sich für die Notwendigkeit entscheiden, eine bestimmte Population zu studieren. Eine Beispielpopulation können alle Patientinnen mit einer bestimmten Nosologie oder Personen im erwerbsfähigen Alter etc. sein. Somit können die Ergebnisse, die für eine Population junger Menschen im wehrfähigen Alter erhalten wurden, kaum auf postmenopausale Frauen extrapoliert werden. Der Satz von Merkmalen, die die Studiengruppe aufweisen wird, bestimmt die "Verallgemeinerbarkeit" der Studiendaten.

Samples können auf verschiedene Arten generiert werden. Am einfachsten ist die Auswahl mit einem Zufallszahlengenerator. erforderliche Menge Objekte aus einer Population bzw Musterrahmen(Stichprobenrahmen). Diese Methode wird aufgerufen einfache Zufallsstichprobe". Wenn wir zufällig einen Startpunkt im Stichprobenrahmen wählen und dann jedes zweite, fünfte oder zehnte Objekt nehmen (je nachdem, welche Gruppengrößen in der Studie erforderlich sind), erhalten wir Intervallabtastung. Die Intervallabtastung ist nicht zufällig, da die Möglichkeit periodischer Wiederholungen von Daten innerhalb des Abtastrahmens niemals ausgeschlossen ist.

Es ist möglich, den sogenannten " geschichtete Stichprobe“, die davon ausgeht, dass die Population aus mehreren unterschiedlichen Gruppen besteht und diese Struktur in der Versuchsgruppe reproduziert werden soll. Wenn beispielsweise das Verhältnis von Männern zu Frauen in einer Population 30:70 beträgt, dann sollte ihr Verhältnis in einer geschichteten Stichprobe gleich sein. Bei dieser Ansatz Es ist von entscheidender Bedeutung, die Stichprobe nicht übermäßig auszubalancieren, dh die Homogenität ihrer Merkmale zu vermeiden, da der Forscher sonst möglicherweise die Chance verpasst, Unterschiede oder Zusammenhänge in den Daten zu finden.

Neben den beschriebenen Methoden der Gruppenbildung gibt es auch Cluster und Stichprobenquote. Der erste wird verwendet, wenn es aufgrund seiner Größe schwierig ist, vollständige Informationen über den Stichprobenrahmen zu erhalten. Dann wird die Stichprobe aus mehreren in der Grundgesamtheit enthaltenen Gruppen gebildet. Die zweite – Quote – ähnelt einer geschichteten Stichprobe, allerdings entspricht hier die Verteilung der Objekte nicht der in der Grundgesamtheit.

Zurückkommend auf den Stichprobenumfang ist festzuhalten, dass dieser eng mit der Wahrscheinlichkeit statistischer Fehler erster und zweiter Art zusammenhängt. Statistische Fehler können darauf zurückzuführen sein, dass die Studie nicht die gesamte Bevölkerung untersucht, sondern einen Teil davon. Fehler 1. Art ist die fehlerhafte Abweichung Nullhypothese. Die Nullhypothese wiederum ist die Annahme, dass alle untersuchten Gruppen aus derselben Grundgesamtheit stammen, was bedeutet, dass die Unterschiede oder Beziehungen zwischen ihnen zufällig sind. Wenn wir eine Analogie zu diagnostischen Tests ziehen, dann ist ein Fehler 1. Art ein falsch positives Ergebnis.

Fehler 2. Art ist eine fehlerhafte Abweichung alternative Hypothese, dessen Bedeutung in der Tatsache liegt, dass die Unterschiede oder Beziehungen zwischen Gruppen nicht auf einem zufälligen Zufall beruhen, sondern auf dem Einfluss der untersuchten Faktoren. Und wieder die Analogie zur Diagnostik: Ein Fehler zweiter Art ist ein falsch negatives Ergebnis. Im Zusammenhang mit diesem Fehler steht der Begriff Energie, die darüber Auskunft gibt, wie effektiv eine bestimmte statistische Methode unter bestimmten Bedingungen ist, über ihre Sensitivität. Die Leistung wird nach folgender Formel berechnet: 1-β, wobei β die Wahrscheinlichkeit eines Typ-II-Fehlers ist. Dieser Indikator hängt hauptsächlich von der Stichprobengröße ab. Je größer die Gruppengröße, desto geringer die Wahrscheinlichkeit eines Fehlers 2. Art und desto höher die Aussagekraft statistischer Tests. Diese Abhängigkeit ist mindestens quadratisch, d. h. eine Verringerung der Stichprobengröße um die Hälfte führt zu einem mindestens vierfachen Leistungsabfall. Die minimal zulässige Leistung wird mit 80 % angenommen, und das maximal zulässige Fehlerniveau der ersten Art beträgt 5 %. Es sollte jedoch immer daran erinnert werden, dass diese Grenzen willkürlich sind und sich je nach Art und Ziel der Studie ändern können. In der Regel wird ein willkürlicher Machtwechsel von der Wissenschaft anerkannt, aber in der überwiegenden Mehrheit der Fälle darf die Fehlerquote erster Art 5 % nicht überschreiten.

All dies steht in direktem Zusammenhang mit der Forschungsplanungsphase. Viele Forscher bezeichnen die statistische Datenverarbeitung jedoch fälschlicherweise nur als eine Art Manipulation, die nach Abschluss des Hauptteils der Arbeit durchgeführt wird. Oftmals besteht nach dem Ende eines ungeplanten Experiments der unwiderstehliche Wunsch, die Analyse statistischer Daten nebenbei zu bestellen. Aber auch für einen Statistiker wird es sehr schwierig sein, aus dem „Müllhaufen“ das vom Forscher erwartete Ergebnis zu extrahieren. Bei unzureichenden Kenntnissen der Biostatistik ist es daher notwendig, sich bereits vor Versuchsbeginn Hilfe bei der statistischen Auswertung zu holen.

Was das Analyseverfahren selbst anbelangt, so sind zwei Haupttypen statistischer Verfahren hervorzuheben: deskriptive und evidenzbasierte (analytische). Deskriptive Techniken umfassen Techniken, um Daten kompakt und leicht verständlich darzustellen. Dazu gehören Tabellen, Grafiken, Häufigkeiten (absolut und relativ), Maße der zentralen Tendenz (Mittelwert, Median, Modus) und Maße der Datenstreuung (Varianz, Standardabweichung, Interquartilintervall usw.). Mit anderen Worten, beschreibende Methoden charakterisieren die untersuchten Proben.

Die beliebteste (wenn auch oft irreführende) Art, verfügbare quantitative Daten zu beschreiben, besteht darin, die folgenden Indikatoren zu definieren:

  • die Anzahl der Beobachtungen in der Stichprobe oder ihre Größe;
  • Mittelwert (arithmetisches Mittel);
  • Die Standardabweichung ist ein Maß dafür, wie stark sich die Werte von Variablen ändern.

Es ist wichtig, sich daran zu erinnern, dass das arithmetische Mittel und die Standardabweichung Maße für die zentrale Tendenz und Streuung in einer relativ kleinen Anzahl von Stichproben sind. In solchen Proben sind die Werte der meisten Objekte mit gleich wahrscheinlich vom Mittelwert abweichen, und ihre Verteilung bildet eine symmetrische "Glocke" (Gauß- oder Gauß-Laplace-Kurve). Eine solche Verteilung wird auch als „normal“ bezeichnet, kommt aber in der Praxis eines medizinischen Experiments nur in 30 % der Fälle vor. Sind die Werte der Variablen asymmetrisch um das Zentrum verteilt, dann lassen sich die Gruppen am besten mit Median und Quantilen (Perzentile, Quartile, Dezile) beschreiben.

Nachdem die Beschreibung der Gruppen abgeschlossen ist, muss die Frage nach ihren Beziehungen und der Möglichkeit beantwortet werden, die Ergebnisse der Studie auf die gesamte Bevölkerung zu verallgemeinern. Dazu werden evidenzbasierte Methoden der Biostatistik eingesetzt. An sie erinnern sich Forscher zuallererst, wenn es um statistische Datenverarbeitung geht. Üblicherweise wird dieser Arbeitsschritt als „Testen statistischer Hypothesen“ bezeichnet.

Die Aufgaben des Hypothesentestens lassen sich in zwei Bereiche unterteilen große Gruppen. Die erste Gruppe beantwortet die Frage, ob es Unterschiede zwischen den Gruppen in der Höhe eines Indikators gibt, zum Beispiel Unterschiede in der Höhe der hepatischen Transaminasen bei Patienten mit Hepatitis und gesunden Menschen. Mit der zweiten Gruppe können Sie die Existenz einer Beziehung zwischen zwei oder mehr Indikatoren nachweisen, beispielsweise der Funktion der Leber und des Immunsystems.

Praktisch lassen sich Aufgaben aus der ersten Gruppe in zwei Untertypen unterteilen:

  • Vergleich des Indikators nur in zwei Gruppen (Gesunde und Kranke, Männer und Frauen);
  • Vergleich von drei oder mehr Gruppen (Untersuchung verschiedener Dosen des Arzneimittels).

Dabei ist zu berücksichtigen, dass sich die statistischen Methoden bei qualitativen und quantitativen Daten deutlich unterscheiden.

In einer Situation, in der die untersuchte Variable qualitativ ist und nur zwei Gruppen verglichen werden, kann der Chi-Quadrat-Test verwendet werden. Dies ist ein ziemlich starkes und weithin bekanntes Kriterium, aber es ist nicht effektiv genug, wenn die Anzahl der Beobachtungen gering ist. Um dieses Problem zu lösen, gibt es mehrere Methoden, wie z. B. die Yates-Korrektur für Kontinuität und die exakte Methode von Fisher.

Wenn die untersuchte Variable quantitativ ist, kann eine von zwei Arten von statistischen Tests verwendet werden. Kriterien des ersten Typs gehen von einem bestimmten Verteilungstyp der Allgemeinbevölkerung aus und operieren mit den Parametern dieser Bevölkerung. Solche Kriterien werden als "parametrisch" bezeichnet und basieren normalerweise auf der Annahme einer Normalverteilung von Werten. Nichtparametrische Tests beruhen nicht auf Annahmen über die Art der Verteilung der Allgemeinbevölkerung und verwenden nicht deren Parameter. Manchmal werden solche Kriterien als "verteilungsfreie Tests" bezeichnet. Dies ist bis zu einem gewissen Grad fehlerhaft, da jeder nichtparametrische Test davon ausgeht, dass die Verteilungen in allen verglichenen Gruppen gleich sind, da sonst falsch positive Ergebnisse erhalten werden können.

Es gibt zwei parametrische Tests, die auf Daten angewendet werden, die aus einer normalverteilten Population stammen: Student's t-Test zum Vergleich zweier Gruppen und Fisher's F-Test zum Testen auf Gleichheit der Varianzen (auch bekannt als ANOVA). Es gibt viel mehr nichtparametrische Kriterien. Verschiedene Tests unterscheiden sich voneinander in den Annahmen, auf denen sie basieren, in der Komplexität der Berechnungen, in der statistischen Aussagekraft usw. Allerdings der Wilcoxon-Test (für verwandte Gruppen) und der Mann-Whitney-Test, auch als Test bekannt Wilcoxon für unabhängige Proben. Diese Tests sind praktisch, da sie keine Annahmen über die Art der Datenverteilung erfordern. Wenn sich jedoch herausstellt, dass die Stichproben aus einer normalverteilten Grundgesamtheit stammen, wird sich ihre statistische Aussagekraft nicht wesentlich von der für den Student-Test unterscheiden.

Eine vollständige Beschreibung der statistischen Methoden finden Sie in spezielle Literatur Der entscheidende Punkt ist jedoch, dass jeder statistische Test eine Reihe von Regeln (Annahmen) und Bedingungen für seine Verwendung erfordert und eine mechanische Aufzählung mehrerer Methoden, um das „gewünschte“ Ergebnis zu finden, absolut inakzeptabel ist wissenschaftlicher Punkt Vision. In diesem Sinne stehen statistische Tests in der Nähe von Medikamenten - jeder hat Indikationen und Kontraindikationen, Nebenwirkungen und die Ausfallwahrscheinlichkeit. Und genauso gefährlich ist der unkontrollierte Einsatz statistischer Tests, weil auf ihnen Hypothesen und Schlussfolgerungen basieren.

Für ein vollständigeres Verständnis des Problems der Genauigkeit der statistischen Analyse ist es notwendig, das Konzept von " Vertrauensniveau." Die Konfidenzwahrscheinlichkeit ist ein Wert, der als Grenze zwischen wahrscheinlichen und unwahrscheinlichen Ereignissen genommen wird. Traditionell wird es mit dem Buchstaben "p" bezeichnet. Für viele Forscher besteht der einzige Zweck der statistischen Analyse darin, den begehrten p-Wert zu berechnen, der Kommas zu setzen scheint berühmter Spruch"Hinrichtung kann nicht begnadigt werden." Das maximal zulässige Konfidenzniveau beträgt 0,05. Es sollte daran erinnert werden, dass das Konfidenzniveau nicht die Wahrscheinlichkeit eines Ereignisses ist, sondern eine Frage des Vertrauens. Indem wir vor Beginn der Analyse die Konfidenzwahrscheinlichkeit aufdecken, bestimmen wir damit den Grad des Vertrauens in die Ergebnisse unserer Forschung. Und wie Sie wissen, wirken sich übermäßige Leichtgläubigkeit und übermäßiges Misstrauen gleichermaßen negativ auf die Ergebnisse jeder Arbeit aus.

Das Konfidenzniveau gibt die maximale Wahrscheinlichkeit eines Typ-I-Fehlers an, den der Forscher für akzeptabel hält. Eine Verringerung des Konfidenzniveaus, also eine Verschärfung der Bedingungen zum Testen von Hypothesen, erhöht die Wahrscheinlichkeit von Fehlern zweiter Art. Daher sollte die Wahl des Konfidenzniveaus unter Berücksichtigung des möglichen Schadens durch das Auftreten von Fehlern erster und zweiter Art erfolgen. Beispielsweise sind die in der biomedizinischen Statistik festgelegten strengen Grenzwerte, die den Anteil falsch positiver Ergebnisse auf höchstens 5 % festlegen, eine dringende Notwendigkeit, da neue Behandlungen auf der Grundlage der Ergebnisse der medizinischen Forschung eingeführt oder abgelehnt werden, und dies ist a Lebensinhalt für viele tausend Menschen.

Zu beachten ist, dass der p-Wert selbst für den Arzt wenig aussagekräftig ist, da er nur Auskunft über die Wahrscheinlichkeit einer irrtümlichen Ablehnung der Nullhypothese gibt. Dieser Indikator sagt beispielsweise nichts über die Größe des therapeutischen Effekts bei Anwendung der Studienmedikation in der Allgemeinbevölkerung aus. Daher gibt es die Meinung, dass es besser wäre, die Ergebnisse der Studie anstelle des Konfidenzniveaus anhand der Größe des Konfidenzintervalls zu bewerten. Konfidenzintervall ist der Wertebereich, in dem der wahre Populationswert (für Mittelwert, Median oder Häufigkeit) mit einer bestimmten Wahrscheinlichkeit enthalten ist. In der Praxis ist es bequemer, beide Werte zu haben, was es ermöglicht, die Anwendbarkeit der erhaltenen Ergebnisse auf die Gesamtbevölkerung sicherer zu beurteilen.

Abschließend noch ein paar Worte zu den Werkzeugen eines Statistikers oder Forschers, der Daten selbstständig analysiert. Manuelle Berechnungen sind längst vorbei. Die heute existierenden statistischen Computerprogramme ermöglichen es, statistische Analysen durchzuführen, ohne sich ernsthaft darum kümmern zu müssen mathematische Ausbildung. Solche leistungsfähigen Systeme wie SPSS, SAS, R usw. ermöglichen dem Forscher die Anwendung komplexer und leistungsfähiger statistischer Methoden. Dies ist jedoch nicht immer gut. Ohne den Grad der Anwendbarkeit der statistischen Tests zu kennen, die auf bestimmte experimentelle Daten angewendet werden, kann der Forscher Berechnungen durchführen und sogar einige Zahlen am Ausgang erhalten, aber das Ergebnis wird sehr zweifelhaft sein. Deshalb, Voraussetzung Um eine statistische Verarbeitung der Ergebnisse des Experiments durchzuführen, müssen gute Kenntnisse vorhanden sein mathematische Grundlagen Statistiken.


Statistische Methoden - Methoden zur Analyse statistischer Daten. Weisen Sie Methoden der angewandten Statistik zu, die in allen Bereichen angewendet werden können wissenschaftliche Forschung und alle Branchen nationale Wirtschaft, und andere statistische Methoden, deren Anwendbarkeit auf einen bestimmten Bereich beschränkt ist. Dies bezieht sich auf Methoden wie statistische Akzeptanzkontrolle, statistische Kontrolle technologischer Prozesse, Zuverlässigkeit und Prüfung sowie Versuchsplanung.

Statistische Methoden der Datenanalyse werden in fast allen Bereichen des menschlichen Handelns eingesetzt. Sie werden verwendet, wenn es notwendig ist, Urteile über eine Gruppe (Objekte oder Subjekte) mit einer gewissen internen Heterogenität zu erhalten und zu untermauern. Es ist ratsam, drei Arten von wissenschaftlichen und angewandten Aktivitäten auf dem Gebiet der statistischen Methoden der Datenanalyse zu unterscheiden (nach dem Grad der Spezifität der Methoden, die mit dem Eintauchen in spezifische Probleme verbunden sind):

a) Entwicklung und Erforschung von Allzweckmethoden ohne Berücksichtigung der Besonderheiten des Anwendungsgebiets;

b) Entwicklung und Erforschung statistischer Modelle echte Phänomene und Prozesse in Übereinstimmung mit den Bedürfnissen eines bestimmten Tätigkeitsbereichs;

c) Anwendung statistischer Methoden und Modelle zur statistischen Analyse spezifischer Daten.

Dispersionsanalyse. Varianzanalyse (von lat. Dispersio – Streuung / zu Deutsch Varianzanalyse – ANOVA) wird verwendet, um den Einfluss einer oder mehrerer qualitativer Variablen (Faktoren) auf eine abhängige quantitative Variable (Antwort) zu untersuchen. Die Varianzanalyse basiert auf die Annahme, dass einige Variablen als Ursachen (Faktoren, unabhängige Variablen) und andere als Folgen (abhängige Variablen) betrachtet werden können. Die unabhängigen Variablen werden manchmal aufgerufen einstellbare Faktoren gerade weil der Forscher im Experiment die Möglichkeit hat, sie zu variieren und das resultierende Ergebnis zu analysieren.

Hauptziel Varianzanalyse (ANOVA) ist die Untersuchung der Signifikanz von Unterschieden zwischen Mittelwerten durch einen Vergleich (Analyse) von Varianzen. Die Aufteilung der Gesamtvarianz in mehrere Quellen ermöglicht es, die Varianz aufgrund der Differenz zwischen den Gruppen mit der Varianz aufgrund der Variabilität innerhalb der Gruppe zu vergleichen. Wenn die Nullhypothese wahr ist (über die Gleichheit der Mittelwerte in mehreren Gruppen von Beobachtungen, die aus der Allgemeinbevölkerung ausgewählt wurden), sollte die Schätzung der Varianz, die mit der Variabilität innerhalb der Gruppe verbunden ist, nahe an der Schätzung der Varianz zwischen den Gruppen liegen. Wenn Sie nur die Mittelwerte zweier Stichproben vergleichen, liefert die Varianzanalyse das gleiche Ergebnis wie ein regulärer t-Test bei einer unabhängigen Stichprobe (wenn Sie zwei vergleichen unabhängige Gruppen Objekte oder Beobachtungen) oder ein t-Test für abhängige Stichproben (wenn zwei Variablen mit demselben Satz von Objekten oder Beobachtungen verglichen werden).


Das Wesen der Varianzanalyse besteht darin, die Gesamtvarianz des untersuchten Merkmals aufgrund des Einflusses spezifischer Faktoren in einzelne Komponenten zu unterteilen und Hypothesen über die Bedeutung des Einflusses dieser Faktoren auf das untersuchte Merkmal zu testen. Durch den Vergleich der Komponenten der Varianz mit dem Fisher F-Test kann festgestellt werden, welcher Anteil der Gesamtvariabilität des resultierenden Merkmals auf die Wirkung einstellbarer Faktoren zurückzuführen ist.

Startmaterial Für die Varianzanalyse werden die Daten der Untersuchung von drei oder mehr Proben verwendet, die entweder gleich oder ungleich sein können, sowohl verbunden als auch getrennt. In Bezug auf die Anzahl der identifizierten anpassbaren Faktoren kann die Varianzanalyse einfaktoriell sein (in diesem Fall wird der Einfluss eines Faktors auf die Ergebnisse des Experiments untersucht), zweifaktoriell (wenn der Einfluss von zwei Faktoren untersucht wird). und multifaktoriell (ermöglicht es Ihnen, nicht nur den Einfluss jedes der Faktoren separat zu bewerten, sondern auch ihre Wechselwirkung).

Varianzanalyse gilt in die Gruppe der parametrischen Verfahren und sollte daher nur angewendet werden, wenn nachgewiesen ist, dass die Verteilung normal ist.

Es wird eine Varianzanalyse verwendet, wenn die abhängige Größe auf einer Skala von Verhältnissen, Intervallen oder Ordnungen gemessen wird und die Einflussgrößen nicht-numerischer Natur sind (Namensskala).

Aufgabenbeispiele. In Aufgaben, die gelöst werden Varianzanalyse, gibt es eine Reaktion numerischer Natur, die von mehreren Variablen nominaler Natur beeinflusst wird. Zum Beispiel mehrere Arten von Viehmastrationen oder zwei Arten der Haltung usw.

Beispiel 1: Während der Woche arbeiteten mehrere Apothekenkioske an drei verschiedenen Orten. In Zukunft können wir nur einen verlassen. Es muss festgestellt werden, ob eine Statistik vorliegt bedeutender Unterschied zwischen den Verkaufsmengen von Arzneimitteln in Kiosken. Wenn ja, wählen wir den Kiosk mit dem höchsten durchschnittlichen Tagesumsatz aus. Wenn sich herausstellt, dass der Unterschied im Verkaufsvolumen statistisch unbedeutend ist, sollten andere Indikatoren die Grundlage für die Auswahl eines Kiosks sein.

Beispiel 2: Vergleich der Kontraste der Gruppenmittelwerte. Die sieben politischen Zugehörigkeiten sind von extrem liberal bis extrem konservativ geordnet, und der lineare Kontrast wird verwendet, um zu testen, ob es einen Aufwärtstrend ungleich Null bei den Gruppenmittelwerten gibt – d. h. ob es einen signifikanten linearen Anstieg des Durchschnittsalters gibt, wenn die eingeordneten Gruppen berücksichtigt werden die Richtung von liberal zu konservativ.

Beispiel 3: Zweiweg-Varianzanalyse. Die Anzahl der Produktverkäufe wird neben der Größe des Geschäfts häufig von der Position der Regale mit dem Produkt beeinflusst. Dieses Beispiel enthält wöchentliche Verkaufszahlen, gekennzeichnet durch vier Regallayouts und drei Ladengrößen. Die Ergebnisse der Analyse zeigen, dass beide Faktoren – die Lage der Regale mit den Waren und die Größe des Ladens – die Anzahl der Verkäufe beeinflussen, ihr Zusammenspiel jedoch nicht signifikant ist.

Beispiel 4: Univariate ANOVA: Randomisiertes Vollblock-Design mit zwei Behandlungen. Untersucht wird der Einfluss aller möglichen Kombinationen von drei Fetten und drei Teigreißern auf das Backen von Brot. Als Blockfaktoren dienten vier Mehlproben aus vier verschiedenen Quellen. Es ist notwendig, die Bedeutung der Fat-Ripper-Interaktion zu identifizieren. Danach, um die verschiedenen Optionen für die Auswahl von Kontrasten zu bestimmen, um herauszufinden, welche Kombinationen von Faktorstufen unterschiedlich sind.

Beispiel 5: Modell eines hierarchischen (verschachtelten) Plans mit gemischten Effekten. Der Einfluss von vier zufällig ausgewählten Köpfen, die in einer Werkzeugmaschine montiert sind, auf die Verformung von hergestellten Glaskathodenhaltern wird untersucht. (Die Köpfe sind in die Maschine eingebaut, daher kann derselbe Kopf nicht auf verschiedenen Maschinen verwendet werden.) Der Kopfeffekt wird als Zufallsfaktor behandelt. Die ANOVA-Statistiken zeigen, dass es keine signifikanten Unterschiede zwischen den Maschinen gibt, aber es gibt Hinweise darauf, dass die Köpfe unterschiedlich sein können. Der Unterschied zwischen allen Maschinen ist nicht signifikant, aber für zwei von ihnen ist der Unterschied zwischen den Kopftypen signifikant.

Beispiel 6: Univariate Analyse wiederholter Messungen unter Verwendung eines Split-Plot-Plans. Dieses Experiment wurde durchgeführt, um die Auswirkung der Angstbewertung einer Person auf die Prüfungsleistung bei vier aufeinanderfolgenden Versuchen zu bestimmen. Die Daten sind so organisiert, dass sie als Gruppen von Teilmengen des gesamten Datensatzes („der gesamte Plot“) betrachtet werden können. Die Wirkung von Angst war nicht signifikant, während die Wirkung von Versuchen signifikant war.

Kovarianzanalyse. Kovarianzanalyse - eine Reihe von Methoden der mathematischen Statistik im Zusammenhang mit der Analyse von Modellen der Abhängigkeit des Mittelwerts einer Zufallsvariablen gleichzeitig von einer Reihe von (Haupt-) qualitativen Faktoren und (zugehörigen) quantitativen Faktoren. Die Faktoren F legen Kombinationen von Bedingungen fest, unter denen die Beobachtungen X, Y erhalten wurden, und werden unter Verwendung von Indikatorvariablen beschrieben, und unter den begleitenden und Indikatorvariablen kann es sowohl zufällige als auch nicht zufällige (im Experiment kontrollierte) geben.

Ist die Zufallsvariable Y ein Vektor, so spricht man von einer multivariaten Analyse der Kovarianz.

Die Analyse der Kovarianz wird häufig verwendet vor der Varianzanalyse, um die Homogenität (Homogenität, Repräsentativität) der Beobachtungsstichprobe X,Y für alle Begleitfaktoren zu überprüfen.