Faktoren- und Dispersionsanalyse in Excel mit Berechnungsautomatisierung. Einweganalyse der Varianz

Um die Variabilität eines Merkmals unter dem Einfluss kontrollierter Variablen zu analysieren, wird die Dispersionsmethode verwendet.

Um die Beziehung zwischen Werten zu untersuchen - faktorielle Methode. Betrachten wir Analysewerkzeuge genauer: Fakultäts-, Streuungs- und Zwei-Faktoren-Streuungsmethoden zur Bewertung der Variabilität.

ANOVA in Excel

Üblicherweise lässt sich das Ziel des Streuungsverfahrens wie folgt formulieren: Aus der Gesamtvariabilität des Parameters 3 die jeweilige Variabilität zu isolieren:

  • 1 - bestimmt durch die Wirkung jedes der untersuchten Werte;
  • 2 - diktiert durch die Beziehung zwischen den untersuchten Werten;
  • 3 - zufällig, diktiert von allen unerklärten Umständen.

In Microsoft Excel kann die Varianzanalyse mit dem Tool "Datenanalyse" (Registerkarte "Daten" - "Analyse") durchgeführt werden. Dies ist ein Tabellenkalkulations-Add-On. Wenn das Add-In nicht verfügbar ist, müssen Sie die „Excel-Optionen“ öffnen und die Einstellung für die Analyse aktivieren.

Die Arbeit beginnt mit der Gestaltung des Tisches. Regeln:

  1. Jede Spalte sollte die Werte eines untersuchten Faktors enthalten.
  2. Ordnen Sie die Spalten in aufsteigender/absteigender Reihenfolge des Werts des untersuchten Parameters an.

Betrachten Sie die Varianzanalyse in Excel anhand eines Beispiels.

Der Betriebspsychologe analysierte mit einer speziellen Technik die Strategie des Verhaltens von Mitarbeitern in einer Konfliktsituation. Es wird angenommen, dass das Verhalten durch das Bildungsniveau (1 - Sekundarstufe, 2 - Fachoberschule, 3 - Hochschulbildung) beeinflusst wird.

Geben Sie Daten in eine Excel-Tabelle ein:


Signifikante Parameter sind mit gelber Farbe ausgefüllt. Da der P-Wert zwischen den Gruppen größer als 1 ist, kann der Fisher-Test nicht als signifikant betrachtet werden. Folglich ist das Verhalten in einer Konfliktsituation nicht vom Bildungsniveau abhängig.



Faktorenanalyse in Excel: ein Beispiel

Die Faktorenanalyse ist eine multivariate Analyse von Beziehungen zwischen den Werten von Variablen. Mit dieser Methode können Sie die wichtigsten Aufgaben lösen:

  • das gemessene Objekt umfassend beschreiben (darüber hinaus umfassend, kompakt);
  • Identifizieren Sie verborgene Variablenwerte, die das Vorhandensein linearer statistischer Korrelationen bestimmen;
  • Variablen klassifizieren (die Beziehung zwischen ihnen bestimmen);
  • reduzieren Sie die Anzahl der benötigten Variablen.

Betrachten Sie das Beispiel der Faktorenanalyse. Angenommen, wir kennen die Verkäufe von Waren für die letzten 4 Monate. Es muss analysiert werden, welche Artikel nachgefragt werden und welche nicht.



Jetzt können Sie deutlich sehen, welche Produktverkäufe das Hauptwachstum bringen.

Zwei-Wege-Varianzanalyse in Excel

Zeigt, wie zwei Faktoren die Wertänderung einer Zufallsvariablen beeinflussen. Betrachten Sie die bidirektionale Varianzanalyse in Excel anhand eines Beispiels.

Eine Aufgabe. Einer Gruppe von Männern und Frauen wurden Geräusche unterschiedlicher Lautstärke präsentiert: 1 - 10 dB, 2 - 30 dB, 3 - 50 dB. Die Reaktionszeit wurde in Millisekunden aufgezeichnet. Es muss festgestellt werden, ob das Geschlecht die Reaktion beeinflusst; Beeinflusst die Lautstärke die Reaktion?

Übung . Die Schüler des 1. Studienjahres wurden befragt, um herauszufinden, welchen Aktivitäten sie ihre Freizeit widmen. Überprüfen Sie, ob sich die Verteilung der verbalen und nonverbalen Präferenzen der Schüler unterscheidet.

Lösung mit einem Taschenrechner durchgeführt.
Gruppendurchschnitt finden:

NP1P2
1 12 17
2 18 19
3 23 25
4 10 7
5 15 17
x vgl 15.6 17

Lassen Sie uns p bezeichnen - die Anzahl der Stufen des Faktors (p = 2). Die Anzahl der Messungen auf jeder Ebene ist gleich und gleich q=5.
Die letzte Zeile enthält die Gruppenmittelwerte für jede Stufe des Faktors.
Der Gesamtmittelwert ergibt sich als arithmetisches Mittel der Gruppenmittelwerte:
(1)
Die Streuung der Gruppenmittelwerte des Prozentsatzes des Versagens relativ zum Gesamtmittelwert wird sowohl durch Änderungen in der Höhe des berücksichtigten Faktors als auch durch Zufallsfaktoren beeinflusst.
Um den Einfluss dieses Faktors zu berücksichtigen, wird die gesamte Stichprobenvarianz in zwei Teile geteilt, von denen der erste als Faktor S 2 f und der zweite als restliche S 2 -Rest bezeichnet wird.
Um diese Komponenten zu berücksichtigen, wird zunächst die Gesamtsumme der quadrierten Abweichungen der Variante vom Gesamtmittel berechnet:

und die faktorielle Summe der quadrierten Abweichungen der Gruppenmittelwerte vom Gesamtmittelwert, die den Einfluss dieses Faktors charakterisiert:

Der letzte Ausdruck wird erhalten, indem jede Variante im Rtot-Ausdruck durch den Gruppenmittelwert für den gegebenen Faktor ersetzt wird.
Als Differenz erhält man die Residualsumme der quadrierten Abweichungen:
R Rest \u003d R insgesamt - R f
Um die gesamte Stichprobenvarianz zu bestimmen, muss Rgesamt durch die Anzahl der Messungen pq dividiert werden:

und um die unverzerrte Gesamtstichprobenvarianz zu erhalten, muss dieser Ausdruck mit pq/(pq-1) multipliziert werden:

Dementsprechend gilt für die unverzerrte faktorielle Stichprobenvarianz:

wobei p-1 die Anzahl der Freiheitsgrade der unverzerrten faktoriellen Stichprobenvarianz ist.
Um den Einfluss des Faktors auf Änderungen des betrachteten Parameters zu beurteilen, wird der Wert berechnet:

Da das Verhältnis zweier Stichprobenvarianzen S 2 f und S 2 rest nach dem Fisher-Snedekor-Gesetz verteilt ist, wird der resultierende Wert f obs mit dem Wert der Verteilungsfunktion verglichen

am kritischen Punkt f cr entsprechend dem gewählten Signifikanzniveau a.
Wenn f obl > f cr, dann hat der Faktor einen signifikanten Einfluss und sollte berücksichtigt werden, ansonsten hat er einen unbedeutenden Einfluss, der vernachlässigt werden kann.
Die folgenden Formeln können auch zur Berechnung von Robs und Rf verwendet werden:
(4)
(5)
Wir finden den Gesamtdurchschnitt mit der Formel (1):
Um Rtot mit Formel (4) zu berechnen, stellen wir eine Tabelle mit 2 Quadraten zusammen:
NP2 1P 2 2
1 144 289
2 324 361
3 529 625
4 100 49
5 225 289
1322 1613

Der Gesamtdurchschnitt wird nach Formel (1) berechnet:

Rtot = 1322 + 1613 - 5 2 16,3 2 = 278,1
Wir finden R f gemäß der Formel (5):
R f \u003d 5 (15,6 2 + 17 2) - 2 16,3 2 \u003d 4,9
Wir erhalten R-Rest: R-Rest \u003d R-Gesamt - R f \u003d 278,1 - 4,9 \u003d 273,2
Wir bestimmen die faktorielle und die Residualvarianz:


Wenn die für einzelne Stichproben berechneten Mittelwerte einer Zufallsvariablen gleich sind, dann sind die Schätzungen der faktoriellen und der Residualvarianz unverzerrte Schätzungen der allgemeinen Varianz und unterscheiden sich nur unwesentlich.
Dann sollte ein Vergleich der Schätzungen dieser Varianzen nach dem Fisher-Kriterium zeigen, dass es keinen Grund gibt, die Nullhypothese über die Gleichheit der faktoriellen und der Residualvarianzen abzulehnen.
Die Schätzung der Faktorvarianz ist kleiner als die Schätzung der Restvarianz, sodass wir die Gültigkeit der Nullhypothese über die Gleichheit der mathematischen Erwartungen für die Schichten der Stichprobe sofort bestätigen können.
Mit anderen Worten, in diesem Beispiel beeinflusst der Faktor Ф die Zufallsvariable nicht signifikant.
Überprüfen wir die Nullhypothese H 0: die Gleichheit der Durchschnittswerte von x.
f obl finden

Für das Signifikanzniveau α=0,05, die Anzahl der Freiheitsgrade 1 und 8 finden wir f cr aus der Fisher-Snedekor-Verteilungstabelle.
f cr (0,05; 1; 8) = 5,32
Aufgrund der Tatsache, dass f obs< f кр, нулевую гипотезу о существенном влиянии фактора на результаты экспериментов отклоняем.
Mit anderen Worten, die Verteilung der verbalen und nonverbalen Präferenzen der Schüler unterscheidet sich.

Übung. Das Werk verfügt über vier Linien zur Herstellung von Fassadenplatten. Aus jeder Linie wurden während der Schicht zufällig 10 Fliesen ausgewählt und ihre Dicke (mm) gemessen. Abweichungen vom Nennmaß sind in der Tabelle angegeben. Es wird auf dem Signifikanzniveau a = 0,05 benötigt, um die Abhängigkeit der Produktion hochwertiger Fliesen von der Produktionslinie (Faktor A) festzustellen.

Übung. Untersuchen Sie auf dem Signifikanzniveau a = 0,05 den Einfluss der Lackfarbe auf die Lebensdauer der Beschichtung.

Beispiel 1. Es wurden 13 Tests durchgeführt, davon 4 auf der ersten Stufe des Faktors, 4 auf der zweiten, 3 auf der dritten und 2 auf der vierten. Überprüfen Sie mit der Methode der Varianzanalyse auf einem Signifikanzniveau von 0,05 die Nullhypothese über die Gleichheit der Gruppenmittelwerte. Es wird davon ausgegangen, dass die Stichproben aus Normalpopulationen mit gleichen Varianzen stammen. Die Testergebnisse sind in der Tabelle gezeigt.

Lösung:
Gruppendurchschnitt finden:

NP1P2P3P4
1 1.38 1.41 1.32 1.31
2 1.38 1.42 1.33 1.33
3 1.42 1.44 1.34 -
4 1.42 1.45 - -
5.6 5.72 3.99 2.64
x vgl 1.4 1.43 1.33 1.32

Lassen Sie uns p bezeichnen - die Anzahl der Stufen des Faktors (p=4). Die Anzahl der Messungen auf jeder Ebene ist: 4,4,3,2
Die letzte Zeile enthält die Gruppenmittelwerte für jede Stufe des Faktors.
Der Gesamtdurchschnitt wird nach folgender Formel berechnet:

Um Total mit Formel (4) zu berechnen, stellen wir eine Tabelle mit 2 Quadratoptionen zusammen:

NP2 1P 2 2P 2 3P 2 4
1 1.9 1.99 1.74 1.72
2 1.9 2.02 1.77 1.77
3 2.02 2.07 1.8 -
4 2.02 2.1 - -
7.84 8.18 5.31 3.49

Die Gesamtsumme der quadrierten Abweichungen ergibt sich aus der Formel:


Wir finden S f durch die Formel:


Wir erhalten S Ruhe: S Ruhe \u003d S Gesamt - S f \u003d 0,0293 - 0,0263 \u003d 0,003
Bestimmen Sie die Faktorvarianz:

und Restvarianz:

Wenn die für einzelne Stichproben berechneten Mittelwerte einer Zufallsvariablen gleich sind, dann sind die Schätzungen der faktoriellen und der Residualvarianz unverzerrte Schätzungen der allgemeinen Varianz und unterscheiden sich nur unwesentlich.
Dann sollte ein Vergleich der Schätzungen dieser Varianzen nach dem Fisher-Kriterium zeigen, dass es keinen Grund gibt, die Nullhypothese über die Gleichheit der faktoriellen und der Residualvarianzen abzulehnen.
Die Schätzung der Faktorvarianz ist größer als die Schätzung der Restvarianz, sodass wir sofort behaupten können, dass die Nullhypothese über die Gleichheit der mathematischen Erwartungen über die Stichprobenschichten hinweg nicht wahr ist.
Mit anderen Worten, in diesem Beispiel hat der Faktor Ф einen signifikanten Einfluss auf die Zufallsvariable.
Überprüfen wir die Nullhypothese H 0: die Gleichheit der Durchschnittswerte von x.
f obl finden

Für das Signifikanzniveau α=0,05, die Anzahl der Freiheitsgrade 3 und 12 finden wir f cr aus der Fisher-Snedekor-Verteilungstabelle.
f cr (0,05; 3; 12) = 3,49
Aufgrund der Tatsache, dass f obl > f cr, akzeptieren wir die Nullhypothese über den signifikanten Einfluss des Faktors auf die Ergebnisse von Experimenten (wir lehnen die Nullhypothese über die Gleichheit der Gruppenmittelwerte ab). Mit anderen Worten, die Gruppenmittelwerte unterscheiden sich insgesamt erheblich.

Beispiel #2. Die Schule hat 5 sechste Klassen. Der Psychologe hat die Aufgabe, festzustellen, ob das durchschnittliche Niveau der Situationsangst in den Klassen gleich ist. Dafür wurden in der Tabelle angegeben. Überprüfen Sie das Signifikanzniveau α = 0,05, die Annahme, dass sich die durchschnittliche Situationsangst in den Klassen nicht unterscheidet.

Beispiel #3. Um den Wert von X zu untersuchen, wurden 4 Tests bei jedem der fünf Niveaus von Faktor F durchgeführt. Die Testergebnisse sind in der Tabelle angegeben. Finden Sie heraus, ob der Einfluss des Faktors F auf den Wert von X signifikant ist, und nehmen Sie α = 0,05 an. Es wird davon ausgegangen, dass die Stichproben aus Normalpopulationen mit gleichen Varianzen stammen.

Beispiel Nr. 4. Angenommen, drei Gruppen von Schülern mit jeweils 10 Personen nahmen an dem pädagogischen Experiment teil. Die Gruppen verwendeten unterschiedliche Unterrichtsmethoden: in der ersten - traditionell (F 1), in der zweiten - auf Computertechnologie basierend (F 2), in der dritten - eine Methode, die weit verbreitet Aufgaben für unabhängiges Arbeiten verwendet (F 3). Das Wissen wurde anhand eines Zehn-Punkte-Systems bewertet.
Es ist erforderlich, die erhaltenen Daten zu Prüfungen zu verarbeiten und eine Schlussfolgerung darüber zu ziehen, ob der Einfluss der Lehrmethode signifikant ist, wobei α = 0,05 als Signifikanzniveau angenommen wird.
Die Ergebnisse der Prüfungen sind in der Tabelle angegeben, F j - das Niveau des Faktors x ij - die Bewertung des i-ten Schülers des Schülers nach der Methode F j .

Faktorstufe

Beispiel Nummer 5. Dargestellt sind die Ergebnisse der kompetitiven Sortenprüfung der Kulturen (Ertrag in c.d. ha). Jede Sorte wurde in vier Parzellen getestet. Verwenden Sie die Methode der Varianzanalyse, um die Auswirkung der Sorte auf den Ertrag zu untersuchen. Stellen Sie die Signifikanz des Einflusses des Faktors (den Anteil der Streuung zwischen den Gruppen an der Gesamtstreuung) und die Signifikanz der Ergebnisse des Experiments auf ein Signifikanzniveau von 0,05 ein.
Erträge in Sortenprüfparzellen

Vielfalt Produktivität bei Wiederholungen von c. von ha
1 2 3 4
1
2
3
42,4
52,5
52,3
37,4
50,1
53,0
40,7
53,8
51,4
38,2
50,7
53,6

ANOVA ist eine Reihe von statistischen Methoden, die entwickelt wurden, um Hypothesen über die Beziehung zwischen bestimmten Merkmalen und den untersuchten Faktoren zu testen, die keine quantitative Beschreibung haben, sowie um den Grad des Einflusses von Faktoren und ihrer Wechselwirkung festzustellen. In der Fachliteratur wird sie oft als ANOVA (vom englischen Namen Analysis of Variations) bezeichnet. Diese Methode wurde erstmals 1925 von R. Fischer entwickelt.

Arten und Kriterien der Varianzanalyse

Mit dieser Methode wird die Beziehung zwischen qualitativen (nominalen) Merkmalen und einer quantitativen (kontinuierlichen) Variablen untersucht. Tatsächlich testet es die Hypothese über die Gleichheit der arithmetischen Mittel mehrerer Stichproben. Daher kann es als parametrisches Kriterium zum gleichzeitigen Vergleich der Zentren mehrerer Proben betrachtet werden. Wenn Sie diese Methode für zwei Stichproben verwenden, sind die Ergebnisse der Varianzanalyse mit den Ergebnissen des Student-t-Tests identisch. Im Gegensatz zu anderen Kriterien ermöglicht Ihnen diese Studie jedoch, das Problem genauer zu untersuchen.

Die Varianzanalyse in der Statistik basiert auf dem Gesetz: Die Summe der quadratischen Abweichungen der kombinierten Stichprobe ist gleich der Summe der Quadrate der Abweichungen innerhalb der Gruppe und der Summe der Quadrate der Abweichungen zwischen den Gruppen. Für die Studie wird der Fisher-Test verwendet, um die Signifikanz der Differenz zwischen Intergruppen- und Intragruppen-Varianzen festzustellen. Notwendige Voraussetzungen hierfür sind jedoch die Normalverteilung der Verteilung und die Homoskedastizität (Varianzgleichheit) der Stichproben. Unterscheiden Sie zwischen eindimensionaler (einfaktorieller) Varianzanalyse und multivariater (multifaktorieller) Analyse. Der erste berücksichtigt die Abhängigkeit des untersuchten Werts von einem Attribut, der zweite - von vielen gleichzeitig, und ermöglicht es Ihnen auch, die Beziehung zwischen ihnen zu identifizieren.

Faktoren

Faktoren werden als kontrollierte Umstände bezeichnet, die das Endergebnis beeinflussen. Seine Verarbeitungsstufe oder -methode wird als Wert bezeichnet, der die spezifische Manifestation dieses Zustands charakterisiert. Diese Zahlen werden normalerweise in einer nominalen oder ordinalen Messskala angegeben. Oft werden Ausgabewerte auf quantitativen oder ordinalen Skalen gemessen. Dann besteht das Problem, die Ausgabedaten in einer Reihe von Beobachtungen zu gruppieren, die ungefähr den gleichen numerischen Werten entsprechen. Wenn die Anzahl der Gruppen zu groß ist, reicht die Anzahl der Beobachtungen in ihnen möglicherweise nicht aus, um zuverlässige Ergebnisse zu erhalten. Wird die Anzahl zu klein gewählt, kann dies zum Verlust wesentlicher Einflussmerkmale auf das System führen. Die spezifische Methode der Gruppierung von Daten hängt von Umfang und Art der Wertschwankung ab. Die Anzahl und Größe der Intervalle in der univariaten Analyse werden meistens durch das Prinzip gleicher Intervalle oder durch das Prinzip gleicher Häufigkeiten bestimmt.

Aufgaben der Ausbreitungsanalyse

Es gibt also Fälle, in denen Sie zwei oder mehr Proben vergleichen müssen. Dann ist es ratsam, die Varianzanalyse zu verwenden. Der Name der Methode weist darauf hin, dass die Schlussfolgerungen auf der Grundlage der Untersuchung der Komponenten der Varianz gezogen werden. Das Wesentliche der Studie ist, dass die Gesamtänderung des Indikators in Komponenten unterteilt wird, die der Wirkung jedes einzelnen Faktors entsprechen. Betrachten Sie eine Reihe von Problemen, die eine typische Varianzanalyse löst.

Beispiel 1

Die Werkstatt verfügt über eine Reihe von Werkzeugmaschinen - automatische Maschinen, die ein bestimmtes Teil herstellen. Die Größe jedes Teils ist ein zufälliger Wert, der von den Einstellungen jeder Maschine und zufälligen Abweichungen abhängt, die während des Herstellungsprozesses der Teile auftreten. Anhand der Abmessungen der Teile muss festgestellt werden, ob die Maschinen gleich aufgebaut sind.

Beispiel 2

Bei der Herstellung eines elektrischen Geräts werden verschiedene Arten von Isolierpapier verwendet: Kondensator, Elektro usw. Das Gerät kann mit verschiedenen Substanzen imprägniert werden: Epoxidharz, Lack, ML-2-Harz usw. Lecks können unter Vakuum bei beseitigt werden erhöhter Druck, wenn erhitzt. Es kann durch Eintauchen in Lack, unter einem kontinuierlichen Lackstrom usw. imprägniert werden. Das gesamte elektrische Gerät wird mit einer bestimmten Masse gegossen, von der es mehrere Möglichkeiten gibt. Qualitätsindikatoren sind die Spannungsfestigkeit der Isolierung, die Überhitzungstemperatur der Wicklung im Betriebszustand und einige andere. Während der Entwicklung des technologischen Prozesses zur Herstellung von Geräten muss festgestellt werden, wie sich jeder der aufgeführten Faktoren auf die Leistung des Geräts auswirkt.

Beispiel 3

Das Trolleybusdepot bedient mehrere Trolleybuslinien. Sie betreiben Trolleybusse verschiedener Typen, und 125 Inspektoren sammeln Fahrpreise. Die Verwaltung des Depots interessiert sich für die Frage: Wie kann man die wirtschaftliche Leistung jedes Controllers (Einnahmen) angesichts der verschiedenen Linien, verschiedenen Arten von Trolleybussen vergleichen? Wie kann die wirtschaftliche Machbarkeit des Starts von Oberleitungsbussen eines bestimmten Typs auf einer bestimmten Strecke bestimmt werden? Wie können angemessene Anforderungen für die Höhe der Einnahmen festgelegt werden, die der Schaffner auf jeder Strecke in verschiedenen Arten von Oberleitungsbussen erzielt?

Die Aufgabe bei der Auswahl einer Methode besteht darin, maximale Informationen über die Auswirkungen auf das Endergebnis jedes Faktors zu erhalten, die numerischen Merkmale einer solchen Auswirkung und ihre Zuverlässigkeit zu minimalen Kosten und in kürzester Zeit zu bestimmen. Methoden der Dispersionsanalyse ermöglichen es, solche Probleme zu lösen.

Univariate Analyse

Die Studie zielt darauf ab, das Ausmaß der Auswirkungen eines bestimmten Falls auf die zu analysierende Überprüfung zu bewerten. Eine weitere Aufgabe der univariaten Analyse kann darin bestehen, zwei oder mehr Umstände miteinander zu vergleichen, um den Unterschied in ihrem Einfluss auf die Erinnerung zu ermitteln. Wenn die Nullhypothese abgelehnt wird, besteht der nächste Schritt darin, Konfidenzintervalle für die erhaltenen Merkmale zu quantifizieren und zu bilden. Falls die Nullhypothese nicht abgelehnt werden kann, wird sie normalerweise akzeptiert und es wird eine Schlussfolgerung über die Art des Einflusses gezogen.

Die Einweg-Varianzanalyse kann zu einem nichtparametrischen Analogon der Kruskal-Wallis-Rangmethode werden. Er wurde 1952 von dem amerikanischen Mathematiker William Kruskal und dem Ökonomen Wilson Wallis entwickelt. Dieser Test soll die Nullhypothese testen, dass die Auswirkungen von Einflüssen auf die untersuchten Stichproben bei unbekannten, aber gleichen Mittelwerten gleich sind. In diesem Fall muss die Anzahl der Proben größer als zwei sein.

Das Jonkhier-Kriterium (Jonkhier-Terpstra) wurde 1952 unabhängig vom niederländischen Mathematiker T. J. Terpstrom und 1954 vom britischen Psychologen E. R. Jonkhier vorgeschlagen. Es wird verwendet, wenn im Voraus bekannt ist, dass die verfügbaren Gruppen von Ergebnissen nach einer Zunahme der geordnet sind Einfluss des untersuchten Faktors, der auf einer ordinalen Skala gemessen wird.

M - das Bartlett-Kriterium, das 1937 vom britischen Statistiker Maurice Stevenson Bartlett vorgeschlagen wurde, wird verwendet, um die Nullhypothese über die Gleichheit der Varianzen mehrerer normaler allgemeiner Populationen zu testen, aus denen die untersuchten Stichproben entnommen werden, im allgemeinen Fall mit unterschiedlichen Größen (Die Anzahl jeder Probe muss mindestens vier betragen).

G ist der Cochran-Test, der 1941 von dem Amerikaner William Gemmel Cochran entdeckt wurde. Er wird verwendet, um die Nullhypothese über die Gleichheit der Varianzen von Normalpopulationen für unabhängige Stichproben gleicher Größe zu testen.

Der nichtparametrische Levene-Test, der 1960 vom amerikanischen Mathematiker Howard Levene vorgeschlagen wurde, ist eine Alternative zum Bartlett-Test unter Bedingungen, bei denen nicht sicher ist, dass die untersuchten Stichproben einer Normalverteilung folgen.

1974 schlugen die amerikanischen Statistiker Morton B. Brown und Alan B. Forsythe einen Test vor (den Brown-Forsyth-Test), der sich etwas vom Levene-Test unterscheidet.

Zwei-Wege-Analyse

Die Zweiweg-Varianzanalyse wird für verknüpfte normalverteilte Stichproben verwendet. In der Praxis werden auch häufig komplexe Tabellen dieses Verfahrens verwendet, insbesondere solche, bei denen jede Zelle einen Datensatz (Wiederholungsmessungen) enthält, der festen Pegelwerten entspricht. Sind die für die Anwendung der zweifachen Varianzanalyse notwendigen Annahmen nicht erfüllt, wird der nichtparametrische Rangtest nach Friedman (Friedman, Kendall und Smith) verwendet, der Ende 1930 vom amerikanischen Ökonomen Milton Friedman entwickelt wurde. Dieses Kriterium ist unabhängig von der Art der Verteilung.

Es wird lediglich angenommen, dass die Verteilung der Größen gleich und stetig ist und dass sie selbst unabhängig voneinander sind. Beim Testen der Nullhypothese werden die Ausgabedaten in Form einer rechteckigen Matrix dargestellt, in der die Zeilen den Stufen von Faktor B und die Spalten den Stufen A entsprechen. Jede Zelle der Tabelle (Block) kann die sein Ergebnis von Messungen von Parametern an einem Objekt oder an einer Gruppe von Objekten mit konstanten Werten der Ebenen beider Faktoren . In diesem Fall werden die entsprechenden Daten als Durchschnittswerte eines bestimmten Parameters für alle Messungen oder Objekte der untersuchten Probe dargestellt. Um das Ausgabekriterium anzuwenden, ist es notwendig, von den direkten Ergebnissen der Messungen zu ihrem Rang überzugehen. Das Ranking wird für jede Zeile separat durchgeführt, das heißt, die Werte werden für jeden festen Wert geordnet.

Der Page-Test (L-Test), der 1963 vom amerikanischen Statistiker E. B. Page vorgeschlagen wurde, dient der Prüfung der Nullhypothese. Für große Stichproben wird die Page-Näherung verwendet. Sie gehorchen, vorbehaltlich der Realität der entsprechenden Nullhypothesen, der Standardnormalverteilung. Falls die Zeilen der Quelltabelle dieselben Werte haben, müssen die durchschnittlichen Ränge verwendet werden. In diesem Fall ist die Genauigkeit der Schlussfolgerungen umso schlechter, je größer die Anzahl solcher Zufälle ist.

Q - Cochran-Kriterium, vorgeschlagen von V. Cochran im Jahr 1937. Es wird in Fällen verwendet, in denen Gruppen homogener Probanden mehr als zwei Einflüssen ausgesetzt sind und für die zwei Optionen für die Überprüfung möglich sind - bedingt negativ (0) und bedingt positiv (1 ) . Die Nullhypothese besteht in der Gleichheit der Einflusseffekte. Die Zwei-Wege-Varianzanalyse ermöglicht es, das Vorhandensein von Verarbeitungseffekten zu bestimmen, ermöglicht es jedoch nicht, zu bestimmen, für welche Spalten dieser Effekt existiert. Bei der Lösung dieses Problems wird die Methode der multiplen Scheffe-Gleichungen für gekoppelte Proben verwendet.

Multivariate Analyse

Das Problem der multivariaten Varianzanalyse entsteht, wenn es gilt, den Einfluss von zwei oder mehr Bedingungen auf eine bestimmte Zufallsvariable zu bestimmen. Die Studie sieht das Vorhandensein einer abhängigen Zufallsvariablen vor, die auf einer Skala von Differenzen oder Verhältnissen gemessen wird, und mehrerer unabhängiger Variablen, von denen jede auf einer Namensskala oder in einer Rangskala ausgedrückt wird. Die Streuungsanalyse von Daten ist ein ziemlich entwickelter Zweig der mathematischen Statistik, der viele Optionen bietet. Das Konzept der Studie ist sowohl für univariate als auch für multivariate Studien üblich. Sein Wesen liegt darin, dass die Gesamtvarianz in Komponenten unterteilt wird, was einer bestimmten Gruppierung von Daten entspricht. Jede Gruppierung von Daten hat ihr eigenes Modell. Hier werden wir nur die wichtigsten Bestimmungen betrachten, die für das Verständnis und die praktische Anwendung der am häufigsten verwendeten Varianten erforderlich sind.

Die Faktorenvarianzanalyse erfordert sorgfältige Aufmerksamkeit bei der Erhebung und Präsentation von Eingabedaten und insbesondere bei der Interpretation der Ergebnisse. Im Gegensatz zum Einfaktor, dessen Ergebnisse bedingt in eine bestimmte Reihenfolge gebracht werden können, bedürfen die Ergebnisse des Zweifaktors einer komplexeren Darstellung. Eine noch schwierigere Situation entsteht, wenn drei, vier oder mehr Umstände vorliegen. Aus diesem Grund enthält das Modell selten mehr als drei (vier) Bedingungen. Ein Beispiel wäre das Auftreten von Resonanz bei einem bestimmten Wert von Kapazität und Induktivität des elektrischen Kreises; die Manifestation einer chemischen Reaktion mit einer bestimmten Gruppe von Elementen, aus denen das System aufgebaut ist; das Auftreten anomaler Effekte in komplexen Systemen unter einem bestimmten Zusammentreffen von Umständen. Das Vorhandensein von Wechselwirkungen kann das Modell des Systems radikal verändern und manchmal dazu führen, dass die Natur der Phänomene, mit denen sich der Experimentator befasst, neu überdacht wird.

Multivariate Varianzanalyse mit wiederholten Experimenten

Messdaten können oft nicht nach zwei, sondern nach mehr Faktoren gruppiert werden. Betrachtet man also die Varianzanalyse der Lebensdauer von Reifen für Trolleybusräder unter Berücksichtigung der Umstände (Hersteller und Strecke, auf der die Reifen betrieben werden), dann kann man als gesonderte Bedingung die Jahreszeit unterscheiden, in der die Reifen betrieben werden (nämlich: Winter- und Sommerbetrieb). Als Ergebnis haben wir das Problem der Drei-Faktoren-Methode.

Bei Vorliegen weiterer Bedingungen ist der Ansatz derselbe wie bei der Zwei-Wege-Analyse. In allen Fällen versucht das Modell zu vereinfachen. Das Phänomen der Wechselwirkung zweier Faktoren tritt nicht so oft auf, und die dreifache Wechselwirkung tritt nur in Ausnahmefällen auf. Nehmen Sie diejenigen Interaktionen auf, für die es vorherige Informationen und gute Gründe gibt, diese in das Modell einzubeziehen. Der Prozess, einzelne Faktoren zu isolieren und zu berücksichtigen, ist relativ einfach. Daher besteht häufig der Wunsch, weitere Umstände hervorzuheben. Davon sollte man sich nicht mitreißen lassen. Je mehr Bedingungen vorliegen, desto unzuverlässiger wird das Modell und desto größer ist die Fehlerwahrscheinlichkeit. Das Modell selbst, das eine große Anzahl unabhängiger Variablen enthält, wird ziemlich schwierig zu interpretieren und für die praktische Verwendung unbequem.

Allgemeine Idee der Varianzanalyse

Die Varianzanalyse in der Statistik ist eine Methode, um die Ergebnisse von Beobachtungen zu erhalten, die von verschiedenen gleichzeitigen Umständen abhängen, und deren Einfluss zu bewerten. Als Faktor wird eine Regelgröße bezeichnet, die der Art der Beeinflussung des Untersuchungsgegenstandes entspricht und in einem bestimmten Zeitraum einen bestimmten Wert annimmt. Sie können qualitativ und quantitativ sein. Niveaus quantitativer Bedingungen erhalten einen bestimmten Wert auf einer numerischen Skala. Beispiele sind Temperatur, Pressdruck, Stoffmenge. Qualitative Faktoren sind unterschiedliche Stoffe, unterschiedliche technologische Verfahren, Apparate, Füllstoffe. Ihre Ebenen entsprechen der Namensskala.

Zur Qualität gehören auch die Art des Verpackungsmaterials, die Lagerbedingungen der Darreichungsform. Es ist auch sinnvoll, den Mahlgrad von Rohstoffen, die fraktionierte Zusammensetzung von Granulaten, die einen quantitativen Wert haben, aber schwer zu regulieren sind, einzubeziehen, wenn eine quantitative Skala verwendet wird. Die Anzahl der Qualitätsfaktoren hängt von der Art der Darreichungsform sowie den physikalischen und technologischen Eigenschaften von Arzneistoffen ab. Beispielsweise können Tabletten aus kristallinen Substanzen durch direktes Verpressen erhalten werden. In diesem Fall genügt es, die Auswahl der Gleit- und Schmiermittel vorzunehmen.

Beispiele für Qualitätsfaktoren für verschiedene Arten von Darreichungsformen

  • Tinkturen. Extraktionsmittelzusammensetzung, Art des Extraktors, Rohstoffaufbereitungsverfahren, Produktionsverfahren, Filtrationsverfahren.
  • Extrakte (flüssig, dickflüssig, trocken). Die Zusammensetzung des Extraktionsmittels, das Extraktionsverfahren, die Anlagenart, das Verfahren zur Entfernung der Extraktionsmittel und Ballaststoffe.
  • Tablets. Zusammensetzung aus Hilfsstoffen, Füllstoffen, Sprengmitteln, Bindemitteln, Gleit- und Gleitmitteln. Die Methode zur Herstellung von Tabletten, die Art der technologischen Ausrüstung. Art der Hülle und ihrer Bestandteile, Filmbildner, Pigmente, Farbstoffe, Weichmacher, Lösungsmittel.
  • Injektionslösungen. Art des Lösungsmittels, Filtrationsverfahren, Art der Stabilisatoren und Konservierungsmittel, Sterilisationsbedingungen, Art der Ampullenabfüllung.
  • Zäpfchen. Die Zusammensetzung der Zäpfchenbasis, das Verfahren zur Herstellung von Zäpfchen, Füllstoffen, Verpackung.
  • Salben. Zusammensetzung der Basis, Strukturbestandteile, Herstellungsverfahren der Salbe, Art der Ausrüstung, Verpackung.
  • Kapseln. Art des Hüllmaterials, Art der Kapselgewinnung, Art des Weichmachers, Konservierungsmittel, Farbstoff.
  • Einreibungen. Herstellungsverfahren, Zusammensetzung, Art der Ausrüstung, Art des Emulgators.
  • Aussetzungen. Art des Lösungsmittels, Art des Stabilisators, Dispergiermethode.

Beispiele für Qualitätsfaktoren und deren Niveaus, die im Herstellungsprozess von Tabletten untersucht wurden

  • Backpulver. Kartoffelstärke, weißer Ton, eine Mischung aus Natriumbicarbonat mit Zitronensäure, basisches Magnesiumcarbonat.
  • Bindungslösung. Wasser, Stärkepaste, Zuckersirup, Methylcelluloselösung, Hydroxypropylmethylcelluloselösung, Polyvinylpyrrolidonlösung, Polyvinylalkohollösung.
  • Gleitsubstanz. Aerosil, Stärke, Talk.
  • Füllstoff. Zucker, Glucose, Lactose, Natriumchlorid, Calciumphosphat.
  • Schmiermittel. Stearinsäure, Polyethylenglycol, Paraffin.

Modelle der Streuungsanalyse bei der Untersuchung des Wettbewerbsniveaus des Staates

Eines der wichtigsten Kriterien für die Beurteilung des Zustands des Staates, das zur Beurteilung des Niveaus seines Wohlstands und seiner sozioökonomischen Entwicklung verwendet wird, ist die Wettbewerbsfähigkeit, dh eine Reihe von Eigenschaften, die der Volkswirtschaft innewohnen und die Fähigkeit bestimmen Staat, um mit anderen Ländern zu konkurrieren. Nachdem der Platz und die Rolle des Staates auf dem Weltmarkt bestimmt wurden, ist es möglich, eine klare Strategie zur Gewährleistung der wirtschaftlichen Sicherheit auf internationaler Ebene festzulegen, da dies der Schlüssel zu positiven Beziehungen zwischen Russland und allen Akteuren auf dem Weltmarkt ist: Investoren , Gläubiger, Landesregierungen.

Um das Niveau der Wettbewerbsfähigkeit von Staaten zu vergleichen, werden die Länder anhand komplexer Indizes eingestuft, die verschiedene gewichtete Indikatoren enthalten. Diese Indizes basieren auf Schlüsselfaktoren, die die wirtschaftliche, politische usw. Situation beeinflussen. Der Modellkomplex zur Untersuchung der Wettbewerbsfähigkeit des Staates sieht die Verwendung von Methoden der mehrdimensionalen statistischen Analyse vor (insbesondere Varianzanalyse (Statistik), ökonometrische Modellierung, Entscheidungsfindung) und umfasst die folgenden Hauptphasen:

  1. Bildung eines Systems von Indikatoren-Indikatoren.
  2. Auswertung und Prognose von Indikatoren der Wettbewerbsfähigkeit des Staates.
  3. Vergleich der Indikatoren-Indikatoren der Wettbewerbsfähigkeit der Staaten.

Betrachten wir nun den Inhalt der Modelle der einzelnen Stufen dieses Komplexes.

In der ersten Phase Mit Hilfe von Expertenstudienmethoden wird ein angemessener Satz von Wirtschaftsindikatoren-Indikatoren zur Bewertung der Wettbewerbsfähigkeit des Staates gebildet, wobei die Besonderheiten seiner Entwicklung auf der Grundlage internationaler Ratings und Daten aus Statistikabteilungen berücksichtigt werden, die den Zustand widerspiegeln das System als Ganzes und seine Prozesse. Die Wahl dieser Indikatoren ist durch die Notwendigkeit gerechtfertigt, diejenigen auszuwählen, die es aus praktischer Sicht am besten ermöglichen, das Niveau des Staates, seine Investitionsattraktivität und die Möglichkeit der relativen Lokalisierung bestehender potenzieller und tatsächlicher Bedrohungen zu bestimmen.

Die Hauptindikatoren der internationalen Ratingsysteme sind Indizes:

  1. Globale Wettbewerbsfähigkeit (GCC).
  2. Wirtschaftsfreiheit (IES).
  3. Menschliche Entwicklung (HDI).
  4. Wahrnehmung von Korruption (CPI).
  5. Interne und externe Bedrohungen (IVZZ).
  6. Potenzial für internationalen Einfluss (IPIP).

Zweite Phase sieht die Bewertung und Prognose von Indikatoren der Wettbewerbsfähigkeit des Staates nach internationalen Ratings für die untersuchten 139 Staaten der Welt vor.

Dritter Abschnitt sieht einen Vergleich der Bedingungen für die Wettbewerbsfähigkeit von Staaten mit den Methoden der Korrelations- und Regressionsanalyse vor.

Anhand der Ergebnisse der Studie kann die Art der Prozesse allgemein und für einzelne Komponenten der Wettbewerbsfähigkeit des Staates bestimmt werden; Testen Sie die Hypothese über den Einfluss von Faktoren und ihre Beziehung auf dem entsprechenden Signifikanzniveau.

Die Umsetzung der vorgeschlagenen Modelle wird es nicht nur ermöglichen, die aktuelle Situation des Niveaus der Wettbewerbsfähigkeit und Investitionsattraktivität von Staaten zu bewerten, sondern auch die Mängel des Managements zu analysieren, Fehler oder falsche Entscheidungen zu vermeiden und die Entwicklung einer Krise zu verhindern im Staat.

Die Varianzanalyse ist eine statistische Methode zur Bewertung der Beziehung zwischen Faktor und Leistungsmerkmalen in verschiedenen zufällig ausgewählten Gruppen, basierend auf der Bestimmung von Unterschieden (Diversität) in den Werten der Merkmale. Die Varianzanalyse basiert auf der Analyse der Abweichungen aller Einheiten der untersuchten Grundgesamtheit vom arithmetischen Mittel. Als Maß für die Abweichungen wird die Streuung (B) genommen - das durchschnittliche Quadrat der Abweichungen. Abweichungen, die durch den Einfluss eines Faktorattributs (Faktor) verursacht werden, werden mit der Größe von Abweichungen verglichen, die durch zufällige Umstände verursacht werden. Wenn die durch das Faktorattribut verursachten Abweichungen signifikanter sind als zufällige Abweichungen, wird davon ausgegangen, dass der Faktor einen signifikanten Einfluss auf das resultierende Attribut hat.

Zur Berechnung der Varianz wird der Abweichungswert jeder Option (jeder eingetragene Zahlenwert des Attributs) vom arithmetischen Mittel quadriert. Dadurch werden negative Zeichen beseitigt. Dann werden diese Abweichungen (Differenzen) aufsummiert und durch die Anzahl der Beobachtungen dividiert, d.h. Abweichungen ausmitteln. So werden die Streuungswerte erhalten.

Ein wichtiger methodischer Wert für die Anwendung der Varianzanalyse ist die korrekte Bildung der Stichprobe. Je nach Ziel und Zielsetzung können zufällig ausgewählte Gruppen unabhängig voneinander gebildet werden (Kontroll- und Versuchsgruppen, um einen Indikator zu untersuchen, z. B. den Einfluss von Bluthochdruck auf die Entwicklung eines Schlaganfalls). Solche Stichproben werden als unabhängig bezeichnet.

Oft werden die Ergebnisse der Exposition gegenüber Faktoren in derselben Stichprobengruppe (z. B. bei denselben Patienten) vor und nach der Exposition (Behandlung, Prävention, Rehabilitationsmaßnahmen) untersucht. Solche Stichproben werden als abhängig bezeichnet.

Die Varianzanalyse, bei der der Einfluss eines Faktors geprüft wird, nennt man Einfaktoranalyse (univariate Analyse). Bei der Untersuchung des Einflusses von mehr als einem Faktor wird die multivariate Varianzanalyse (multivariate Analyse) verwendet.

Faktorzeichen sind jene Zeichen, die das untersuchte Phänomen beeinflussen.

Effektive Zeichen sind solche Zeichen, die sich unter dem Einfluss von Faktorzeichen ändern.

Bedingungen für die Verwendung der Varianzanalyse:

Die Aufgabe der Studie besteht darin, die Stärke des Einflusses eines (bis zu 3) Faktors auf das Ergebnis oder die Stärke des kombinierten Einflusses verschiedener Faktoren (Geschlecht und Alter, körperliche Aktivität und Ernährung usw.) zu bestimmen.

Die untersuchten Faktoren sollten unabhängig (ohne Bezug) zueinander sein. Beispielsweise kann man nicht den kombinierten Effekt von Berufserfahrung und Alter, Größe und Gewicht der Kinder usw. untersuchen. über die Inzidenz der Bevölkerung.

Die Auswahl der Gruppen für die Studie erfolgt nach dem Zufallsprinzip (Random Selection). Die Organisation eines Dispersionskomplexes mit der Umsetzung des Prinzips der zufälligen Auswahl von Optionen wird als Randomisierung (übersetzt aus dem Englischen - zufällig) bezeichnet, d.h. zufällig gewählt.

Es können sowohl quantitative als auch qualitative (attributive) Merkmale verwendet werden.

Bei der Durchführung einer einseitigen Varianzanalyse wird empfohlen (notwendige Bedingung für die Anwendung):

1. Die Normalität der Verteilung der analysierten Gruppen bzw. die Übereinstimmung der Stichprobengruppen mit normalverteilten Grundgesamtheiten.

2. Unabhängigkeit (Unverbundenheit) der Verteilung von Beobachtungen in Gruppen.

3. Vorhandensein von Häufigkeit (Wiederholung) von Beobachtungen.

Zunächst wird eine Nullhypothese formuliert, d. h. es wird angenommen, dass die untersuchten Faktoren keinen Einfluss auf die Werte des resultierenden Attributs haben und die resultierenden Unterschiede zufällig sind.

Dann bestimmen wir, wie hoch die Wahrscheinlichkeit ist, die beobachteten (oder stärkeren) Unterschiede zu erhalten, vorausgesetzt, dass die Nullhypothese wahr ist.

Wenn diese Wahrscheinlichkeit gering ist, weisen wir die Nullhypothese zurück und schlussfolgern, dass die Ergebnisse der Studie statistisch signifikant sind. Damit ist die Wirkung der untersuchten Faktoren noch nicht belegt (dies ist in erster Linie eine Frage der Forschungsplanung), aber es ist dennoch unwahrscheinlich, dass das Ergebnis dem Zufall geschuldet ist.

Wenn alle Bedingungen für die Anwendung der Varianzanalyse erfüllt sind, sieht die Zerlegung der Gesamtvarianz mathematisch so aus:

Punkt. = Dfakt + D rest.,

Punkt. - die Gesamtvarianz der beobachteten Werte (Variante), gekennzeichnet durch die Streuung der Variante vom Gesamtdurchschnitt. Misst die Variation eines Merkmals in der gesamten Population unter dem Einfluss aller Faktoren, die diese Variation verursacht haben. Die Gesamtdiversität setzt sich aus Intergroup und Intragroup zusammen;

Dfact - faktorielle (Intergruppen-) Streuung, gekennzeichnet durch die Differenz der Mittelwerte in jeder Gruppe und hängt vom Einfluss des untersuchten Faktors ab, nach dem jede Gruppe differenziert wird. Beispielsweise ist in Gruppen mit unterschiedlichen ätiologischen Faktoren des klinischen Verlaufs einer Lungenentzündung das durchschnittliche Niveau des verbrachten Betttages nicht gleich - es wird eine Diversität zwischen den Gruppen beobachtet.

D Ruhe. - Restvarianz (innerhalb der Gruppe), die die Streuung der Variante innerhalb der Gruppen charakterisiert. Spiegelt zufällige Schwankungen wider, d.h. Teil der Variation, der unter dem Einfluss nicht spezifizierter Faktoren auftritt und nicht von der Eigenschaft abhängt – dem Faktor, der der Gruppierung zugrunde liegt. Die Variation des untersuchten Merkmals hängt von der Stärke des Einflusses einiger nicht berücksichtigter Zufallsfaktoren ab, sowohl von organisierten (vom Forscher angegeben) als auch von zufälligen (unbekannten) Faktoren.

Daher setzt sich die Gesamtvariation (Streuung) zusammen aus der Variation, die durch organisierte (gegebene) Faktoren verursacht wird, die faktorielle Variation genannt werden, und unorganisierten Faktoren, d.h. Restvariation (zufällig, unbekannt).

Bei einem Stichprobenumfang n wird die Stichprobenvarianz als Summe der quadrierten Abweichungen vom Stichprobenmittelwert dividiert durch n-1 (Stichprobenumfang minus eins) berechnet. Bei festem Stichprobenumfang n ist die Varianz also eine Funktion der Summe der Quadrate (Abweichungen), die der Kürze halber mit SS bezeichnet wird (vom englischen Sum of Squares – Sum of Squares). Im Folgenden verzichten wir häufig auf das Wort „selektiv“, wohl wissend, dass es sich um eine Stichprobenvarianz bzw. eine Schätzung der Varianz handelt. Die Varianzanalyse basiert auf der Aufteilung der Varianz in Teile oder Komponenten. Betrachten Sie den folgenden Datensatz:

Die Mittelwerte der beiden Gruppen unterscheiden sich signifikant (2 bzw. 6). Die Summe der quadrierten Abweichungen innerhalb jeder Gruppe ist 2. Wenn wir sie zusammenzählen, erhalten wir 4. Wenn wir diese Berechnungen jetzt wiederholen, ohne die Gruppenzugehörigkeit zu berücksichtigen, das heißt, wenn wir SS basierend auf dem Gesamtdurchschnitt dieser beiden Stichproben berechnen, wir erhalten einen Wert von 28. Mit anderen Worten, die Varianz (Summenquadrate) basierend auf der gruppeninternen Variabilität ergibt viel niedrigere Werte als die berechneten basierend auf der Gesamtvariabilität (bezogen auf den Gesamtmittelwert). Der Grund dafür ist offensichtlich der signifikante Unterschied zwischen den Mittelwerten, und dieser Unterschied zwischen den Mittelwerten erklärt den bestehenden Unterschied zwischen den Quadratsummen.

SS St. St. FRAU F p
Wirkung 24.0 24.0 24.0 .008
Fehler 4.0 1.0

Wie aus der Tabelle ersichtlich ist, wird die Gesamtsumme der Quadrate SS = 28 in Komponenten unterteilt: die Summe der Quadrate aufgrund der Variabilität innerhalb der Gruppe (2+2=4; siehe zweite Zeile der Tabelle) und die Summe von Quadrate aufgrund der unterschiedlichen Mittelwerte zwischen den Gruppen (28-(2+2)=24; siehe erste Zeile der Tabelle). Beachten Sie, dass MS in dieser Tabelle das mittlere Quadrat gleich SS dividiert durch die Anzahl der Freiheitsgrade (stdf) ist.

Im obigen einfachen Beispiel könnten Sie den t-Test für unabhängige Stichproben sofort berechnen. Die erhaltenen Ergebnisse stimmen natürlich mit den Ergebnissen der Varianzanalyse überein.

Situationen, in denen ein Phänomen vollständig durch eine Variable beschrieben wird, sind jedoch äußerst selten. Wenn wir zum Beispiel versuchen zu lernen, wie man große Tomaten anbaut, sollten wir Faktoren berücksichtigen, die mit der genetischen Struktur der Pflanzen, der Bodenart, dem Licht, der Temperatur usw. zusammenhängen. Bei der Durchführung eines typischen Experiments müssen Sie sich also mit einer Vielzahl von Faktoren auseinandersetzen. Der Hauptgrund, warum die Verwendung von ANOVA dem erneuten Vergleich zweier Stichproben auf unterschiedlichen Faktorniveaus unter Verwendung von t-Testreihen vorzuziehen ist, besteht darin, dass die ANOVA wesentlich effizienter und bei kleinen Stichproben informativer ist.

Angenommen, wir fügen in dem oben diskutierten Analysebeispiel mit zwei Stichproben einen weiteren Faktor hinzu, z. B. das Geschlecht. Lassen Sie nun jede Gruppe aus 3 Männern und 3 Frauen bestehen. Der Plan dieses Experiments kann in Form einer Tabelle dargestellt werden:

Bevor Sie die Berechnungen durchführen, können Sie sehen, dass in diesem Beispiel die Gesamtvarianz mindestens drei Quellen hat:

1) Zufallsfehler (Intragruppenvarianz),

2) Variabilität im Zusammenhang mit der Zugehörigkeit zur Versuchsgruppe

3) Variabilität aufgrund des Geschlechts der Beobachtungsobjekte.

Beachten Sie, dass es eine weitere mögliche Quelle der Variabilität gibt – die Wechselwirkung von Faktoren, die wir später besprechen werden). Was passiert, wenn wir das Geschlecht nicht als Faktor in unsere Analyse einbeziehen und den üblichen t-Test berechnen? Wenn wir Quadratsummen berechnen, die das Geschlecht ignorieren (d. h. Objekte unterschiedlichen Geschlechts zu einer Gruppe zusammenfassen, wenn die Varianz innerhalb der Gruppe berechnet wird, und so die Summe der Quadrate für jede Gruppe gleich SS = 10 und die Gesamtsumme der Quadrate SS = 10 + 10 erhalten = 20), dann erhalten wir einen größeren Wert der gruppeninternen Varianz als bei einer genaueren Analyse mit zusätzlicher Aufteilung in Untergruppen nach Geschlecht (in diesem Fall ist der gruppeninterne Mittelwert gleich 2, und die gesamte gruppeninterne Quadratsumme ist gleich zu SS = 2+2+2+2 = 8).

Mit der Einführung eines zusätzlichen Faktors, nämlich des Geschlechts, verringerte sich die Restvarianz. Dies liegt daran, dass der männliche Mittelwert kleiner ist als der weibliche Mittelwert, und dieser Mittelwertunterschied die Gesamtvariabilität innerhalb der Gruppe erhöht, wenn das Geschlecht nicht berücksichtigt wird. Die Steuerung der Fehlervarianz erhöht die Sensitivität (Power) des Tests.

Dieses Beispiel zeigt einen weiteren Vorteil der Varianzanalyse gegenüber dem üblichen t-Test bei zwei Stichproben. Die Varianzanalyse ermöglicht es Ihnen, jeden Faktor zu untersuchen, indem Sie die Werte anderer Faktoren kontrollieren. Dies ist in der Tat der Hauptgrund für seine größere statistische Aussagekraft (kleinere Stichprobenumfänge sind erforderlich, um aussagekräftige Ergebnisse zu erhalten). Aus diesem Grund liefert die Varianzanalyse selbst bei kleinen Stichproben statistisch signifikantere Ergebnisse als ein einfacher t-Test.

) wurde entwickelt, um nur zwei Populationen zu vergleichen. Es wird jedoch oft zum paarweisen Vergleich mehrerer Gruppen missbraucht (Abb. 1), was den sog. Wirkung von Mehrfachvergleichen(Englisch) Mehrfachvergleiche; Glantz 1999, p. 101-104). Wir werden später über diesen Effekt sprechen und wie man damit umgeht. In diesem Beitrag werde ich die Prinzipien beschreiben Univariate Varianzanalyse nur entworfen für gleichzeitig Vergleich der Durchschnittswerte von zwei oder mehr Gruppen. Prinzipien der ANOVA ein Analyse Ö f va riechen, ANOVA) wurden in den 1920er Jahren entwickelt. Sir Ronald Aylmer Fisher Ronald Aylmer Fisher) - "ein Genie, das fast im Alleingang die Grundlagen der modernen Statistik legte" (Halb 1998).

Es kann sich die Frage stellen: Warum die zum Vergleich verwendete Methode Mittel Werte heißt zerstreuend Analyse? Die Sache ist die, dass wir bei der Ermittlung der Differenz zwischen den Durchschnittswerten eigentlich die Varianzen der analysierten Grundgesamtheiten vergleichen. Aber das Wichtigste zuerst ...

Formulierung des Problems

Das folgende Beispiel ist dem Buch entnommen Maindonald & Braun(2010). Gewichtsdaten sind für Tomaten (ganze Pflanze; Gewicht in kg) verfügbar, die 2 Monate lang unter drei verschiedenen Versuchsbedingungen (trt , von Behandlung) - auf Wasser (Wasser), in einer Umgebung mit Zugabe von Dünger (Nährstoff) sowie in einer Umgebung mit Zugabe von Dünger und Herbizid 2,4-D (Nährstoff + 24D):

# Erstellen Sie eine Tabelle mit Daten: Tomate<- data.frame (weight= c (1.5 , 1.9 , 1.3 , 1.5 , 2.4 , 1.5 , # water 1.5 , 1.2 , 1.2 , 2.1 , 2.9 , 1.6 , # nutrient 1.9 , 1.6 , 0.8 , 1.15 , 0.9 , 1.6 ) , # nutrient+24D trt = rep (c ("Water" , "Nutrient" , "Nutrient+24D" ) , c (6 , 6 , 6 ) ) ) # Ergebnis ansehen: Gewicht Gewicht Trt 1 1,50 Wasser 2 1,90 Wasser 3 1,30 Wasser 4 1,50 Wasser 5 2.40 Wasser 6 1,50 Wasser 7 1,50 Nutrew 8 1,20 Nutrew 9 1,20 Nutrew 11 2,90 Nahrungsmittel 12 1,60 Nutrew 13 1,6 1,6 1,6 1,6 1,6 1,6 1,6 1,6 1,6 1,6 1,6 1,80 Nährstoff Nährstoff Nährstoff Nährstoff Nährstoff +24D 16 1,15 Nährstoff+24D 17 0,90 Nährstoff+24D 18 1,60 Nährstoff+24D


Die Variable trt ist ein Faktor mit drei Stufen. Für einen anschaulicheren Vergleich der Versuchsbedingungen werden wir in Zukunft die „Wasser“-Ebene zur Basisebene machen (engl. Hinweis), d. h. die Ebene, mit der R alle anderen Ebenen vergleicht. Dies kann mit der Funktion relevel() erfolgen:


Um die Eigenschaften der verfügbaren Daten besser zu verstehen, visualisieren wir sie anhand der beobachteten Unterschiede zwischen den Gruppenmittelwerten, die unbedeutend sind und durch den Einfluss zufälliger Faktoren verursacht werden (d. h. tatsächlich stammen alle erhaltenen Pflanzengewichtsmessungen von einer normalverteilten Allgemeinpopulation). :

Wir betonen noch einmal, dass das betrachtete Beispiel dem Fall entspricht Einfaktor Varianzanalyse: Wir untersuchen die Wirkung eines Faktors – Wachstumsbedingungen (mit drei Ebenen – Wasser, Nährstoff und Nährstoff + 24D) auf die für uns interessante Antwortvariable – das Gewicht der Pflanzen.

Leider hat der Forscher fast nie die Möglichkeit, die gesamte Bevölkerung zu untersuchen. Wie können wir dann wissen, ob die obige Nullhypothese wahr ist, wenn nur die Beispieldaten gegeben sind? Wir können diese Frage anders formulieren: Wie hoch ist die Wahrscheinlichkeit, beobachtete Unterschiede zwischen Gruppenmittelwerten zu erhalten, indem Zufallsstichproben aus einer normalverteilten Grundgesamtheit gezogen werden?? Um diese Frage zu beantworten, benötigen wir einen statistischen Test, der die Größe der Unterschiede zwischen den verglichenen Gruppen quantitativ charakterisiert.