Diskrete Serie online. Aufbau einer Intervallvariationsreihe für kontinuierliche quantitative Daten

Laborarbeit №1. Primäre Verarbeitung statistischer Daten

Aufbau von Vertriebsserien

Die geordnete Verteilung von Bevölkerungseinheiten in Gruppen nach einem beliebigen Attribut wird genannt Nahverteilung . In diesem Fall kann das Vorzeichen sowohl quantitativ sein, als auch die Reihe genannt wird variabel , und qualitativ, dann heißt die Reihe attributiv . So kann beispielsweise die Einwohnerzahl einer Stadt nach Altersgruppen in einer Variationsreihe oder nach Berufszugehörigkeit in einer Merkmalsreihe verteilt werden (natürlich lassen sich noch viele weitere qualitative und quantitative Merkmale für den Aufbau von Verteilungsreihen vorschlagen, die Auswahl des Merkmals wird durch die Aufgabe der statistischen Forschung bestimmt).

Jede Vertriebsreihe ist durch zwei Elemente gekennzeichnet:

- Möglichkeit(x ich) - Dies sind einzelne Werte des Attributs der Einheiten der Stichprobenpopulation. Bei einer Variationsreihe nimmt die Variante numerische Werte an, bei einer attributiven Reihe - qualitative (z. B. x = "Beamter");

- Frequenz(n ich) ist eine Zahl, die angibt, wie oft dieser oder jener Merkmalswert vorkommt. Wenn die Häufigkeit als relative Zahl ausgedrückt wird (d. h. der Anteil der Populationselemente, die einem bestimmten Wert von Optionen am Gesamtvolumen der Population entsprechen), wird sie aufgerufen relative Frequenz oder Frequenz.

Variationsreihen können sein:

- diskret wenn das untersuchte Merkmal durch eine bestimmte Zahl (normalerweise eine ganze Zahl) gekennzeichnet ist.

- Intervall wenn die Grenzen "von" und "bis" für ein kontinuierlich variables Merkmal definiert sind. Eine Intervallreihe wird auch dann gebildet, wenn die Wertemenge eines diskret variablen Merkmals groß ist.

Eine Intervallreihe kann sowohl mit gleichlangen Intervallen (gleiche Intervallreihen) als auch mit ungleichen Intervallen gebildet werden, wenn dies durch die Bedingungen der statistischen Untersuchung vorgegeben ist. Beispielsweise kann eine Reihe von Einkommensverteilungen der Bevölkerung mit folgenden Intervallen betrachtet werden:<5тыс р., 5-10 тыс р., 10-20 тыс.р., 20-50 тыс р., и т.д. Если цель исследования не определяет способ построения интервального ряда, то строится равноинтервальный ряд, число интервалов в котором определяется по формуле Стерджесса:



wobei k die Anzahl der Intervalle und n die Stichprobengröße ist. (Natürlich ergibt die Formel normalerweise eine Bruchzahl, und die der resultierenden Zahl am nächsten liegende ganze Zahl wird als Anzahl der Intervalle gewählt.) Die Länge des Intervalls wird in diesem Fall durch die Formel bestimmt

.

Grafisch können Variationsreihen dargestellt werden als Histogramme(Über jedem Intervall der Intervallreihe wird eine der Häufigkeit in diesem Intervall entsprechende "Säule" der Höhe errichtet), Verbreitungsgebiet(gestrichelte Linie Verbindungspunkte ( x ich;n ich) oder kumuliert(konstruiert nach den akkumulierten Häufigkeiten, d.h. für jeden Wert des Attributs wird die Häufigkeit des Auftretens in der Menge der Objekte mit einem Wert des Attributs kleiner als der angegebene genommen).

Beim Arbeiten in Excel können die folgenden Funktionen zum Erstellen von Variationsreihen verwendet werden:

ÜBERPRÜFEN( Datenarray) – zur Bestimmung des Stichprobenumfangs. Das Argument ist der Zellbereich, der die Beispieldaten enthält.

ZÄHLENWENN( Angebot; Kriterium) - kann verwendet werden, um eine Attribut- oder Variationsserie zu erstellen. Die Argumente sind der Bereich der Beispielwerte des Attributs und das Kriterium - der numerische oder Textwert des Attributs oder die Nummer der Zelle, in der es sich befindet. Das Ergebnis ist die Häufigkeit des Auftretens dieses Werts in der Probe.

FREQUENZ( Datenarray; Intervall-Array) – zum Aufbau einer Variationsreihe. Die Argumente sind der Bereich des Beispieldatenarrays und die Intervallspalte. Wenn es erforderlich ist, eine diskrete Reihe zu bilden, werden hier die Werte der Optionen angegeben, wenn es sich um eine Intervallreihe handelt, dann die oberen Grenzen der Intervalle (sie werden auch "Taschen" genannt). Da das Ergebnis eine Häufigkeitsspalte ist, muss die Einführung der Funktion mit der Tastenkombination STRG+SHIFT+ENTER abgeschlossen werden. Beachten Sie, dass beim Festlegen eines Arrays von Intervallen beim Einführen einer Funktion der letzte Wert darin weggelassen werden kann - alle Werte, die nicht in die vorherigen "Taschen" gefallen sind, werden in der entsprechenden "Tasche" platziert. Dies hilft manchmal, den Fehler zu vermeiden, dass der größte Abtastwert nicht automatisch in die letzte „Tasche“ platziert wird.

Darüber hinaus wird für komplexe Gruppierungen (nach mehreren Kriterien) das Tool „Pivot-Tabellen“ verwendet. Sie können auch verwendet werden, um Attribut- und Variationsserien zu erstellen, aber das verkompliziert die Aufgabe unnötigerweise. Um eine Variationsreihe und ein Histogramm zu erstellen, gibt es außerdem ein „Histogramm“-Verfahren aus dem Add-In „Analysis Package“ (um Add-Ins in Excel zu verwenden, müssen Sie sie zuerst herunterladen, sie werden nicht standardmäßig installiert).

Wir veranschaulichen den Prozess der primären Datenverarbeitung mit den folgenden Beispielen.

Beispiel 1.1. es gibt Daten über die quantitative Zusammensetzung von 60 Familien.

Erstellen Sie eine Variationsreihe und ein Verteilungspolygon

Lösung.

Lassen Sie uns die Excel-Tabellen öffnen. Lassen Sie uns ein Array von Daten im Bereich A1:L5 eingeben. Wenn Sie ein Dokument in elektronischer Form (z. B. im Word-Format) studieren, müssen Sie lediglich eine Tabelle mit Daten auswählen und in die Zwischenablage kopieren, dann Zelle A1 auswählen und die Daten einfügen - sie werden automatisch belegt entsprechende Reichweite. Berechnen wir die Stichprobengröße n - die Anzahl der Stichprobendaten. Geben Sie dazu in Zelle B7 die Formel = ANZAHL (A1: L5) ein. Beachten Sie, dass es zur Eingabe des gewünschten Bereichs in die Formel nicht erforderlich ist, seine Bezeichnung über die Tastatur einzugeben, es reicht aus, sie auszuwählen. Lassen Sie uns die Mindest- und Höchstwerte in der Probe bestimmen, indem Sie die Formel =MIN(A1:L5) in Zelle B8 und in Zelle B9 eingeben: =MAX(A1:L5).

Abb.1.1 Beispiel 1. Primäre Verarbeitung statistischer Daten in Excel-Tabellen

Als Nächstes bereiten wir eine Tabelle zum Erstellen einer Variationsreihe vor, indem wir Namen für die Intervallspalte (Variantenwerte) und die Häufigkeitsspalte eingeben. Geben Sie in der Spalte der Intervalle die Werte des Attributs vom Minimum (1) bis zum Maximum (6) ein und belegen Sie den Bereich B12:B17. Wählen Sie die Häufigkeitsspalte aus, geben Sie die Formel =HÄUFIGKEIT(A1:L5;B12:B17) ein und drücken Sie die Tastenkombination STRG+UMSCHALT+EINGABETASTE

Abb.1.2 Beispiel 1. Konstruktion einer Variationsreihe

Zur Kontrolle berechnen wir die Summe der Häufigkeiten mit der SUM-Funktion (Funktionssymbol S in der Gruppe Bearbeiten auf der Registerkarte Start), die berechnete Summe muss mit dem zuvor berechneten Stichprobenumfang in Zelle B7 übereinstimmen.

Lassen Sie uns nun ein Polygon erstellen: Nachdem Sie den resultierenden Frequenzbereich ausgewählt haben, wählen Sie den Befehl "Grafik" auf der Registerkarte "Einfügen". Standardmäßig sind die Werte auf der horizontalen Achse Ordnungszahlen - in unserem Fall von 1 bis 6, was mit den Werten der Optionen (Anzahl der Tarifkategorien) übereinstimmt.

Der Name der Serie des Diagramms „Serie 1“ kann entweder über die gleiche Option „Daten auswählen“ auf der Registerkarte „Designer“ geändert oder einfach gelöscht werden.

Abb.1.3. Beispiel 1. Erstellen eines Frequenzpolygons

Beispiel 1.2. Es liegen Daten zu Schadstoffemissionen aus 50 Quellen vor:

10,4 18,6 10,3 26,0 45,0 18,2 17,3 19,2 25,8 18,7
28,2 25,2 18,4 17,5 41,8 14,6 10,0 37,8 10,5 16,0
18,1 16,8 38,5 37,7 17,9 29,0 10,1 28,0 12,0 14,0
14,2 20,8 13,5 42,4 15,5 17,9 19, 10,8 12,1 12,4
12,9 12,6 16,8 19,7 18,3 36,8 15,0 37,0 13,0 19,5

Stellen Sie eine Serie mit gleichen Intervallen zusammen, erstellen Sie ein Histogramm

Lösung

Fügen wir einer Excel-Tabelle ein Datenarray hinzu, das den Bereich A1:J5 belegt. Wie in der vorherigen Aufgabe werden wir die Stichprobengröße n sowie die Mindest- und Höchstwerte in der Stichprobe bestimmen. Da wir nun keine diskrete, sondern eine Intervallreihe benötigen und die Anzahl der Intervalle im Problem nicht angegeben ist, berechnen wir die Anzahl der Intervalle k mit der Sturgess-Formel. Geben Sie dazu in Zelle B10 die Formel =1+3,322*LOG10(B7) ein.

Abb.1.4. Beispiel 2. Konstruktion einer Reihe gleicher Intervalle

Der resultierende Wert ist keine ganze Zahl, er beträgt ungefähr 6,64. Da für k=7 die Länge der Intervalle als ganze Zahl ausgedrückt wird (im Gegensatz zu k=6), wählen wir k=7, indem wir diesen Wert in Zelle C10 eingeben. Wir berechnen die Länge des Intervalls d in Zelle B11, indem wir die Formel = (B9-B8) / C10 eingeben.

Lassen Sie uns ein Array von Intervallen definieren und die Obergrenze für jedes der 7 Intervalle angeben. Berechnen Sie dazu in Zelle E8 die Obergrenze des ersten Intervalls, indem Sie die Formel =B8+B11 eingeben; in Zelle E9 die Obergrenze des zweiten Intervalls durch Eingabe der Formel =E8+B11. Um die verbleibenden Werte der Obergrenzen der Intervalle zu berechnen, fixieren wir die Nummer der Zelle B11 in der eingegebenen Formel mit dem $-Zeichen, sodass die Formel in Zelle E9 zu =E8+B$11 wird, und kopieren den Inhalt von Zelle E9 zu den Zellen E10-E14. Der letzte erhaltene Wert ist gleich dem Maximalwert in der Stichprobe, der zuvor in Zelle B9 berechnet wurde.

Abb.1.5. Beispiel 2. Konstruktion einer Reihe gleicher Intervalle


Lassen Sie uns nun das Array von "Taschen" mit der FREQUENCY-Funktion füllen, wie es in Beispiel 1 getan wurde.

Abb.1.6. Beispiel 2. Konstruktion einer Reihe gleicher Intervalle

Basierend auf der resultierenden Variationsreihe erstellen wir ein Histogramm: Wählen Sie die Häufigkeitsspalte aus und wählen Sie „Histogramm“ auf der Registerkarte „Einfügen“. Nachdem wir das Histogramm erhalten haben, ändern wir die Beschriftungen der horizontalen Achse darin in Werte im Intervallbereich. Dazu wählen wir die Option „Daten auswählen“ auf der Registerkarte „Designer“. Wählen Sie im erscheinenden Fenster den Befehl "Ändern" für den Abschnitt "Beschriftung der horizontalen Achse" und geben Sie den Wertebereich der Varianten ein, indem Sie ihn mit der "Maus" auswählen.

Abb.1.7. Beispiel 2. Erstellen eines Histogramms

Abb.1.8. Beispiel 2. Erstellen eines Histogramms

Für diskrete Merkmale wird eine diskrete Variationsreihe konstruiert.

Um eine diskrete Variationsreihe zu erstellen, müssen Sie Folgendes tun: 1) Ordnen Sie die Beobachtungseinheiten in aufsteigender Reihenfolge des untersuchten Attributwerts,

2) alle möglichen Werte des Attributs x i ermitteln, aufsteigend sortieren,

Zeichenwert, ich .

Feature-Wert-Häufigkeit und bezeichnen f ich . Die Summe aller Häufigkeiten der Reihe ist gleich der Anzahl der Elemente in der untersuchten Grundgesamtheit.

Beispiel 1 .

Notenliste der Studierenden in Prüfungen: 3; vier; 3; 5; vier; 2; 2; vier; vier; 3; 5; 2; vier; 5; vier; 3; vier; 3; 3; vier; vier; 2; 2; 5; 5; vier; 5; 2; 3; vier; vier; 3; vier; 5; 2; 5; 5; vier; 3; 3; vier; 2; vier; vier; 5; vier; 3; 5; 3; 5; vier; vier; 5; vier; vier; 5; vier; 5; 5; 5.

Hier die Nummer X - Klasseeine diskrete Zufallsvariable ist, und die resultierende Liste von Schätzungen iststatistische (beobachtete) Daten .

    Ordnen Sie die Beobachtungseinheiten in aufsteigender Reihenfolge des untersuchten Werts des Merkmals:

2; 2; 2; 2; 2; 2; 2; 2; 3; 3; 3; 3; 3; 3; 3; 3; 3; 3; 3; 3; 4; 4; 4; 4; 4; 4; 4; 4; 4; 4; 4; 4; 4; 4; 4; 4; 4; 4; 4; 4; 4; 4; 4; 5; 5; 5; 5; 5; 5; 5; 5; 5; 5; 5; 5; 5; 5; 5; 5; 5.

2) alle möglichen Werte des Attributs x i ermitteln, aufsteigend sortieren:

In diesem Beispiel können alle Bewertungen in vier Gruppen mit den folgenden Werten eingeteilt werden: 2; 3; vier; 5.

Der Wert einer Zufallsvariablen, die einer separaten Gruppe von beobachteten Daten entspricht, wird aufgerufen Zeichenwert, Variante (Option) und bezeichne x ich .

Die Zahl, die angibt, wie oft der entsprechende Merkmalswert in einer Reihe von Beobachtungen vorkommt, wird aufgerufen Feature-Wert-Häufigkeit und bezeichnen f ich .

Für unser Beispiel

Punktzahl 2 kommt vor - 8 mal,

Punktzahl 3 kommt vor - 12 mal,

Punktzahl 4 kommt vor - 23 mal,

Punktzahl 5 kommt vor - 17 Mal.

Insgesamt gibt es 60 Bewertungen.

4) Schreibe die empfangenen Daten in eine Tabelle mit zwei Reihen (Spalten) – x i und f i .

Basierend auf diesen Daten ist es möglich, eine diskrete Variationsreihe zu konstruieren

Diskrete Variationsserie - Dies ist eine Tabelle, in der die vorkommenden Werte des untersuchten Merkmals als separate Werte in aufsteigender Reihenfolge und deren Häufigkeiten angegeben sind

  1. Konstruktion einer Intervallvariationsreihe

Zusätzlich zu einer diskreten Variationsreihe gibt es oft eine Möglichkeit, Daten als Intervall-Variationsreihe zu gruppieren.

Eine Intervallreihe wird gebildet, wenn:

    das Zeichen hat einen kontinuierlichen Charakter der Veränderung;

    es gibt viele diskrete Werte (mehr als 10)

    Häufigkeiten diskreter Werte sind sehr klein (überschreiten Sie 1-3 nicht mit einer relativ großen Anzahl von Beobachtungseinheiten);

    viele diskrete Werte eines Merkmals mit gleichen Häufigkeiten.

Eine Intervallvariationsreihe ist eine Möglichkeit, Daten in Form einer Tabelle mit zwei Spalten (Merkmalswerte in Form eines Intervalls von Werten und der Häufigkeit jedes Intervalls) zu gruppieren.

Anders als bei einer diskreten Reihe werden die Werte des Vorzeichens einer Intervallreihe nicht durch einzelne Werte dargestellt, sondern durch ein Intervall von Werten („von – bis“).

Die Zahl, die anzeigt, wie viele Beobachtungseinheiten in jedes ausgewählte Intervall gefallen sind, wird aufgerufen Feature-Wert-Häufigkeit und bezeichnen f ich . Die Summe aller Häufigkeiten der Reihe ist gleich der Anzahl der Elemente (Beobachtungseinheiten) in der untersuchten Grundgesamtheit.

Wenn eine Einheit einen Merkmalswert hat, der gleich dem Wert der oberen Grenze des Intervalls ist, dann sollte sie auf das nächste Intervall bezogen werden.

Zum Beispiel fällt ein Kind mit einer Größe von 100 cm in das 2. Intervall und nicht in das erste; und ein Kind mit einer Körpergröße von 130 cm fällt in das letzte Intervall und nicht in das dritte.

Basierend auf diesen Daten ist es möglich, eine Reihe von Intervallvariationen zu konstruieren.

Jedes Intervall hat eine Untergrenze (x n), eine Obergrenze (x in) und eine Intervallbreite ( ich).

Eine Intervallgrenze ist ein Merkmalswert, der auf der Grenze zweier Intervalle liegt.

Kindergröße (cm)

Kindergröße (cm)

Menge Kinder

über 130

Wenn ein Intervall eine obere und eine untere Grenze hat, wird es aufgerufen geschlossenes Intervall. Wenn das Intervall nur eine untere oder nur eine obere Grenze hat, dann ist dies - offenes Intervall. Nur das allererste oder das allerletzte Intervall kann offen sein. Im obigen Beispiel ist das letzte Intervall offen.

Intervallbreite (ich) ist die Differenz zwischen Ober- und Untergrenze.

ich = x n - x Zoll

Es wird angenommen, dass die Breite eines offenen Intervalls gleich der Breite eines benachbarten geschlossenen Intervalls ist.

Kindergröße (cm)

Menge Kinder

Intervallbreite (i)

für Berechnungen 130+20=150

20 (weil die Breite des angrenzenden geschlossenen Intervalls 20 ist)

Alle Intervallreihen werden in Intervallreihen mit gleichen Intervallen und Intervallreihen mit ungleichen Intervallen unterteilt. . In Intervallreihen mit gleichen Intervallen ist die Breite aller Intervalle gleich. Bei Intervallreihen mit ungleichen Intervallen ist die Breite der Intervalle unterschiedlich.

In diesem Beispiel eine Intervallreihe mit ungleichen Intervallen.

Höhere Berufsausbildung

„RUSSISCHE AKADEMIE DER VOLKSWIRTSCHAFT UND

ÖFFENTLICHER DIENST UNTER DEM PRÄSIDENTEN

RUSSISCHE FÖDERATION"

(Niederlassung Kaluga)

Fachbereich Naturwissenschaftliche und Mathematische Fächer

PRÜFUNG

Thema "Statistik"

Studentin ___ Mayboroda Galina Yurievna _____

Korrespondenzabteilung Fakultät Landes- und Kommunalverwaltungsgruppe G-12-V

Dozent ____________________ Hamer G.V.

PhD, außerordentlicher Professor

Kaluga-2013

Aufgabe 1.

Aufgabe 1.1. vier

Aufgabe 1.2. 16

Aufgabe 1.3. 24

Aufgabe 1.4. 33

Aufgabe 2.

Aufgabe 2.1. 43

Aufgabe 2.2. 48

Aufgabe 2.3. 53

Aufgabe 2.4. 58

Aufgabe 3.

Aufgabe 3.1. 63

Aufgabe 3.2. 68

Aufgabe 3.3. 73

Aufgabe 3.4. 79

Aufgabe 4.

Aufgabe 4.1. 85

Aufgabe 4.2. 88

Aufgabe 4.3. 90

Aufgabe 4.4. 93

Liste der verwendeten Quellen. 96

Aufgabe 1.

Aufgabe 1.1.

Es gibt die folgenden Daten über die Produktion und die Höhe des Gewinns der Unternehmen der Region (Tabelle 1).

Tabelle 1

Daten zur Produktionsleistung und zur Höhe des Gewinns der Unternehmen

Firmennummer Ausgabe, Millionen Rubel Gewinn, Millionen Rubel Firmennummer Ausgabe, Millionen Rubel Gewinn, Millionen Rubel
63,0 6,7 56,0 7,2
48,0 6,2 81,0 9,6
39,0 6,5 55,0 6,3
28,0 3,0 76,0 9,1
72,0 8,2 54,0 6,0
61,0 7,6 53,0 6,4
47,0 5,9 68,0 8,5
37,0 4,2 52,0 6,5
25,0 2,8 44,0 5,0
60,0 7,9 51,0 6,4
46,0 5,5 50,0 5,8
34,0 3,8 65,0 6,7
21,0 2,1 49,0 6,1
58,0 8,0 42,0 4,8
45,0 5,7 32,0 4,6

Nach den Originaldaten:

1. Erstellen Sie eine statistische Reihe der Verteilung von Unternehmen nach Output, indem Sie fünf Gruppen in gleichen Abständen bilden.

Diagramme für Verteilungsreihen erstellen: Polygon, Histogramm, kumulieren. Bestimmen Sie grafisch den Wert von Modus und Median.

2. Berechnen Sie die Merkmale einer Reihe von Unternehmensverteilungen nach Output: arithmetisches Mittel, Streuung, Standardabweichung, Variationskoeffizient.

Machen Sie eine Schlussfolgerung.

3. Stellen Sie anhand der Methode der analytischen Gruppierung das Vorhandensein und die Art der Korrelation zwischen den Kosten der hergestellten Produkte und der Höhe des Gewinns pro Unternehmen fest.

4. Messen Sie die Enge der Korrelation zwischen den Produktionskosten und der Höhe des Gewinns anhand der empirischen Korrelation.

Allgemeine Schlussfolgerungen ziehen.

Lösung:

Lassen Sie uns eine statistische Verteilungsreihe erstellen

Um eine Intervallvariationsreihe zu erstellen, die die Verteilung der Unternehmen in Bezug auf die Produktion charakterisiert, müssen der Wert und die Grenzen der Intervalle der Reihe berechnet werden.

Beim Aufbau einer Reihe mit gleichen Intervallen der Wert des Intervalls h wird durch die Formel bestimmt:

x max und x min- die größten und kleinsten Werte des Attributs in der untersuchten Gruppe von Unternehmen;

k- Anzahl der Intervallseriengruppen.

Anzahl der Gruppen k im Auftrag angegeben. k= 5.

x max= 81 Millionen Rubel, x min= 21 Millionen Rubel

Berechnung des Intervallwertes:

Millionen Rubel

Durch sukzessives Addieren des Werts des Intervalls h = 12 Millionen Rubel. bis zur unteren Grenze des Intervalls erhalten wir die folgenden Gruppen:

1 Gruppe: 21 - 33 Millionen Rubel.

2. Gruppe: 33 - 45 Millionen Rubel;

Gruppe 3: 45 - 57 Millionen Rubel.

Gruppe 4: 57 - 69 Millionen Rubel.

Gruppe 5: 69 - 81 Millionen Rubel.

Um eine Intervallreihe zu erstellen, muss die Anzahl der Unternehmen berechnet werden, die in jeder Gruppe enthalten sind ( Gruppenfrequenzen).

Der Prozess der Gruppierung von Unternehmen nach Produktionsvolumen ist in Hilfstabelle 2 dargestellt. Spalte 4 dieser Tabelle ist erforderlich, um eine analytische Gruppierung zu erstellen (Absatz 3 der Aufgabe).

Tabelle 2

Tabelle zum Aufbau einer Intervallverteilungsreihe und

Analytische Gruppierung

Unternehmensgruppen nach Output, Millionen Rubel Firmennummer Ausgabe, Millionen Rubel Gewinn, Millionen Rubel
21-33 21,0 2,1
25,0 2,8
28,0 3,0
32,0 4,6
Gesamt 106,0 12,5
33-45 34,0 3,8
37,0 4,2
39,0 6,5
42,0 4,8
44,0 5,0
Gesamt 196,0 24,3
45-57 45,0 5,7
46,0 5,5
47,0 5,9
48,0 6,2
49,0 6,1
50,0 5,8
51,0 6,4
52,0 6,5
53,0 6,4
54,0 6,0
55,0 6,3
56,0 7,2
Gesamt 606,0 74,0
57-69 58,0 8,0
60,0 7,9
61,0 7,6
63,0 6,7
65,0 6,7
68,0 8,5
Gesamt 375,0 45,4
69-81 72,0 8,2
76,0 9,1
81,0 9,6
Gesamt 229,0 26,9
Gesamt 183,1

Basierend auf den Gruppenzusammenfassungszeilen der „Gesamt“-Tabelle 3 wird eine abschließende Tabelle 3 gebildet, die die Intervallreihen der Verteilung der Unternehmen nach Output darstellt.

Tisch 3

Eine Reihe von Unternehmen nach Produktionsvolumen

Fazit. Die konstruierte Gruppierung zeigt, dass die Verteilung der Unternehmen hinsichtlich des Outputs nicht einheitlich ist. Die häufigsten Unternehmen mit einem Produktionsvolumen von 45 bis 57 Millionen Rubel. (12 Unternehmen). Am seltensten sind Unternehmen mit einer Leistung von 69 bis 81 Millionen Rubel. (3 Unternehmen).

Lassen Sie uns Diagramme der Verteilungsreihe erstellen.

Vieleck oft verwendet, um diskrete Reihen darzustellen. Um ein Polygon in einem rechteckigen Koordinatensystem zu konstruieren, werden die Werte des Arguments auf der Abszissenachse aufgetragen, d. H. Optionen (für Intervallvariationsreihen wird die Mitte des Intervalls als Argument genommen) und auf der Ordinatenachse - Frequenz Werte. Ferner werden in diesem Koordinatensystem Punkte aufgebaut, deren Koordinaten Paare entsprechender Zahlen aus der Variationsreihe sind. Die resultierenden Punkte werden in Reihe durch gerade Liniensegmente verbunden. Das Polygon ist in Abbildung 1 dargestellt.

Balkendiagramm - Balkendiagramm. Damit können Sie die Symmetrie der Verteilung auswerten. Das Histogramm ist in Abbildung 2 dargestellt.

Abbildung 1 – Polygonverteilung von Unternehmen nach Volumen

Ausgang

Mode

Abbildung 2 - Histogramm der Verteilung der Unternehmen nach Volumen

Ausgang

Mode- der Wert des Merkmals, das in der Studienpopulation am häufigsten vorkommt.

Für eine Intervallreihe kann der Modus grafisch aus dem Histogramm bestimmt werden (Abbildung 2). Dazu wird das höchste Rechteck ausgewählt, das in diesem Fall modal ist (45–57 Millionen Rubel). Dann wird der rechte Eckpunkt des modalen Rechtecks ​​mit der oberen rechten Ecke des vorherigen Rechtecks ​​verbunden. Und der linke Eckpunkt des modalen Rechtecks ​​ist mit der oberen linken Ecke des nachfolgenden Rechtecks. Ferner wird von ihrem Schnittpunkt eine Senkrechte auf die Abszissenachse abgesenkt. Die Abszisse des Schnittpunkts dieser Linien ist der Verteilungsmodus.

Million reiben.

Fazit. In der betrachteten Gruppe von Unternehmen sind die Unternehmen mit einer Leistung von 52 Millionen Rubel am weitesten verbreitet.

Kumulieren - gebrochene Kurve. Es basiert auf den akkumulierten Frequenzen (berechnet in Tabelle 4). Die Kumulierung beginnt an der unteren Grenze des ersten Intervalls (21 Millionen Rubel), die kumulierte Frequenz wird an der oberen Grenze des Intervalls hinterlegt. Die Kumulierung ist in Abbildung 3 dargestellt.

Median

Abbildung 3 – Kumulierte Verteilung der Unternehmen nach Volumen

Ausgang

Mittleres Ich ist der Wert des Merkmals, das in die Mitte der Rangfolge fällt. Auf beiden Seiten des Medians gibt es die gleiche Anzahl von Bevölkerungseinheiten.

Bei einer Intervallreihe kann der Median grafisch aus einer Summenkurve bestimmt werden. Um den Median aus dem Punkt auf der Summenhäufigkeitsskala zu bestimmen, der 50 % (30:2 = 15) entspricht, wird eine Gerade parallel zur Abszissenachse gezogen, bis sie sich mit der Summe schneidet. Dann wird vom Schnittpunkt der angegebenen Geraden mit der Kumulierung eine Senkrechte auf die Abszissenachse abgesenkt. Die Abszisse des Schnittpunktes ist der Median.

Million reiben.

Fazit. In der betrachteten Gruppe von Unternehmen hat die Hälfte der Unternehmen ein Produktionsvolumen von nicht mehr als 52 Millionen Rubel und die andere Hälfte - nicht weniger als 52 Millionen Rubel.


Ähnliche Informationen.


Bei der Verarbeitung großer Informationsmengen, die für die Durchführung moderner wissenschaftlicher Entwicklungen besonders wichtig ist, steht der Forscher vor der schweren Aufgabe, die Ausgangsdaten richtig zu gruppieren. Wenn die Daten diskret sind, gibt es, wie wir gesehen haben, keine Probleme – Sie müssen nur die Häufigkeit jedes Merkmals berechnen. Wenn das untersuchte Merkmal hat kontinuierlich Charakter (was in der Praxis häufiger vorkommt), dann ist die Wahl der optimalen Anzahl von Intervallen für die Gruppierung eines Merkmals keineswegs eine triviale Aufgabe.

Um kontinuierliche Zufallsvariablen zu gruppieren, wird der gesamte Variationsbereich des Merkmals in eine bestimmte Anzahl von Intervallen unterteilt zu.

Gruppiertes Intervall (kontinuierlich) Variationsreihe Intervalle genannt, geordnet nach dem Wert des Merkmals (), wobei zusammen mit den entsprechenden Häufigkeiten () die Anzahl der Beobachtungen angegeben wird, die in das r"-te Intervall fielen, oder relative Häufigkeiten ():

Merkmalswertintervalle

Mi-Frequenz

Balkendiagramm und kumulieren (ogiva), bereits ausführlich von uns besprochen, sind ein hervorragendes Datenvisualisierungstool, mit dem Sie ein grundlegendes Verständnis der Datenstruktur erhalten. Solche Graphen (Abb. 1.15) werden für kontinuierliche Daten auf die gleiche Weise wie für diskrete Daten erstellt, nur unter Berücksichtigung der Tatsache, dass kontinuierliche Daten den Bereich ihrer möglichen Werte vollständig ausfüllen und beliebige Werte annehmen.

Reis. 1.15.

Deshalb Die Spalten auf dem Histogramm und der Kumulierung müssen in Kontakt sein, dürfen keine Bereiche haben, in denen die Attributwerte nicht in alle möglichen Bereiche fallen(d. h. das Histogramm und die Kumulierung sollten keine "Löcher" entlang der Abszissenachse haben, in die die Werte der untersuchten Variablen nicht fallen, wie in Abb. 1.16). Die Höhe des Balkens entspricht der Häufigkeit – der Anzahl der Beobachtungen, die in das angegebene Intervall fallen, oder der relativen Häufigkeit – dem Anteil der Beobachtungen. Intervalle darf nicht kreuzen und sind in der Regel gleich breit.

Reis. 1.16.

Das Histogramm und das Polygon sind Annäherungen an die Wahrscheinlichkeitsdichtekurve (Differentialfunktion) f(x) theoretische Verteilung, betrachtet im Zuge der Wahrscheinlichkeitstheorie. Daher ist ihre Konstruktion bei der primärstatistischen Verarbeitung quantitativer kontinuierlicher Daten von solcher Bedeutung - anhand ihrer Form kann man das hypothetische Verteilungsgesetz beurteilen.

Kumulieren - die Kurve der akkumulierten Häufigkeiten (Frequenzen) der Intervallvariationsserie. Der Graph der integralen Verteilungsfunktion wird mit der Kumulierung verglichen F(x), auch im Rahmen der Wahrscheinlichkeitstheorie betrachtet.

Grundsätzlich sind die Konzepte Histogramm und Kumulate genau mit kontinuierlichen Daten und ihren Intervallvariationsreihen verbunden, da ihre Graphen empirische Schätzungen der Wbzw. Verteilungsfunktion sind.

Die Konstruktion einer Intervallvariationsreihe beginnt mit der Bestimmung der Anzahl der Intervalle k. Und diese Aufgabe ist vielleicht die schwierigste, wichtigste und umstrittenste in der untersuchten Frage.

Die Anzahl der Intervalle sollte nicht zu klein sein, da das Histogramm sonst zu glatt wird ( überglättet), verliert alle Merkmale der Variabilität der Ausgangsdaten - in Abb. 1.17 können Sie sehen, wie die gleichen Daten, auf denen die Graphen von Abb. 1,15 werden verwendet, um ein Histogramm mit einer kleineren Anzahl von Intervallen zu erstellen (linke Grafik).

Gleichzeitig sollte die Anzahl der Intervalle nicht zu groß sein – sonst können wir die Verteilungsdichte der untersuchten Daten entlang der numerischen Achse nicht abschätzen: Das Histogramm erweist sich als unterglättet (unterglättet) mit ungefüllten Intervallen, ungleichmäßig (siehe Abb. 1.17, rechtes Diagramm).

Reis. 1.17.

Wie bestimmt man die bevorzugte Anzahl von Intervallen?

Bereits 1926 schlug Herbert Sturges eine Formel zur Berechnung der Anzahl der Intervalle vor, in die der anfängliche Wertesatz des untersuchten Attributs aufgeteilt werden muss. Diese Formel ist wirklich sehr beliebt geworden – die meisten statistischen Lehrbücher bieten sie an, und viele Statistikpakete verwenden sie standardmäßig. Ob dies gerechtfertigt ist und in allen Fällen, ist eine sehr ernste Frage.

Worauf basiert also die Sturges-Formel?

Betrachten Sie die Binomialverteilung )