Faktorová a disperzná analýza v Exceli s automatizáciou výpočtov. Jednosmerná analýza rozptylu

Na analýzu variability znaku pod vplyvom riadených premenných sa používa disperzná metóda.

Študovať vzťah medzi hodnotami - faktoriálna metóda. Pozrime sa podrobnejšie na analytické nástroje: faktorové, disperzné a dvojfaktorové disperzné metódy na hodnotenie variability.

ANOVA v Exceli

Podmienečne možno cieľ disperznej metódy formulovať takto: izolovať z celkovej variability parametra 3 konkrétnu variabilitu:

  • 1 - určené pôsobením každej zo študovaných hodnôt;
  • 2 - diktované vzťahom medzi študovanými hodnotami;
  • 3 - náhodné, diktované všetkými nezohľadnenými okolnosťami.

V programe Microsoft Excel je možné vykonať analýzu rozptylu pomocou nástroja "Analýza údajov" (záložka "Údaje" - "Analýza"). Toto je tabuľkový doplnok. Ak doplnok nie je k dispozícii, musíte otvoriť „Možnosti programu Excel“ a povoliť nastavenie pre analýzu.

Práca začína návrhom stola. pravidlá:

  1. Každý stĺpec by mal obsahovať hodnoty jedného skúmaného faktora.
  2. Usporiadajte stĺpce vo vzostupnom/zostupnom poradí podľa hodnoty skúmaného parametra.

Zvážte analýzu rozptylu v Exceli pomocou príkladu.

Podnikový psychológ analyzoval pomocou špeciálnej techniky stratégiu správania sa zamestnancov v konfliktnej situácii. Predpokladá sa, že správanie je ovplyvnené úrovňou vzdelania (1 - stredné, 2 - stredné odborné, 3 - vysokoškolské vzdelanie).

Zadajte údaje do tabuľky programu Excel:


Významný parameter je vyplnený žltou farbou. Keďže P-hodnota medzi skupinami je väčšia ako 1, Fisherov test nemožno považovať za významný. V dôsledku toho správanie v konfliktnej situácii nezávisí od úrovne vzdelania.



Faktorová analýza v Exceli: príklad

Faktorová analýza je viacrozmerná analýza vzťahov medzi hodnotami premenných. Pomocou tejto metódy môžete vyriešiť najdôležitejšie úlohy:

  • komplexne popíšte meraný objekt (navyše priestranne, kompaktne);
  • identifikovať hodnoty skrytých premenných, ktoré určujú prítomnosť lineárnych štatistických korelácií;
  • klasifikovať premenné (určiť vzťah medzi nimi);
  • znížiť počet požadovaných premenných.

Zoberme si príklad faktorovej analýzy. Predpokladajme, že poznáme predaj akéhokoľvek tovaru za posledné 4 mesiace. Je potrebné analyzovať, ktoré položky sú žiadané a ktoré nie.



Teraz môžete jasne vidieť, ktorý predaj produktov vedie k hlavnému rastu.

Obojsmerná analýza rozptylu v Exceli

Ukazuje, ako dva faktory ovplyvňujú zmenu hodnoty náhodnej premennej. Zvážte obojsmernú analýzu rozptylu v Exceli pomocou príkladu.

Úloha. Skupine mužov a žien boli prezentované zvuky rôznej hlasitosti: 1 - 10 dB, 2 - 30 dB, 3 - 50 dB. Čas odozvy bol zaznamenaný v milisekundách. Je potrebné určiť, či pohlavie ovplyvňuje reakciu; Ovplyvňuje hlasitosť odozvu?

Cvičenie . Študenti 1. ročníka boli dotazovaní s cieľom identifikovať aktivity, ktorým sa venujú vo svojom voľnom čase. Skontrolujte, či sa líši rozdelenie verbálnych a neverbálnych preferencií študentov.

rozhodnutie vykonávané pomocou kalkulačky.
Zistenie priemeru skupiny:

NP 1P 2
1 12 17
2 18 19
3 23 25
4 10 7
5 15 17
x porov 15.6 17

Označme p - počet úrovní faktora (p=2). Počet meraní na každej úrovni je rovnaký a rovná sa q=5.
Posledný riadok obsahuje priemer skupiny pre každú úroveň faktora.
Celkový priemer možno získať ako aritmetický priemer priemeru skupiny:
(1)
Rozpätie skupinových priemerov percenta zlyhania voči celkovému priemeru je ovplyvnené tak zmenami v úrovni uvažovaného faktora, ako aj náhodnými faktormi.
Aby sa zohľadnil vplyv tohto faktora, celkový rozptyl vzorky je rozdelený na dve časti, z ktorých prvá sa nazýva faktoriál S 2 f a druhá - zvyškový zvyšok S 2.
Aby sa zohľadnili tieto komponenty, najprv sa vypočíta celkový súčet druhých mocnín odchýlok variantu od celkového priemeru:

a faktoriálny súčet kvadrátov odchýlok priemeru skupiny od celkového priemeru, ktorý charakterizuje vplyv tohto faktora:

Posledný výraz sa získa nahradením každého variantu vo výraze Rtot skupinovým priemerom pre daný faktor.
Zvyšný súčet štvorcových odchýlok sa získa ako rozdiel:
R odpočinok \u003d R celkom - R f
Na určenie celkového rozptylu vzorky je potrebné vydeliť Rtotal počtom meraní pq:

a ak chcete získať nezaujatý celkový rozptyl vzorky, tento výraz sa musí vynásobiť pq/(pq-1):

Preto pre nezaujatý faktoriálny výberový rozptyl:

kde p-1 je počet stupňov voľnosti nezaujatého faktoriálneho rozptylu vzorky.
Na posúdenie vplyvu faktora na zmeny uvažovaného parametra sa vypočíta hodnota:

Keďže pomer dvoch výberových rozptylov S 2 f a S 2 rem je rozdelený podľa Fisherovho-Snedekorovho zákona, výsledná hodnota f obs sa porovnáva s hodnotou distribučnej funkcie.

v kritickom bode f cr zodpovedajúcom zvolenej hladine významnosti a.
Ak f obl >f cr, tak faktor má významný vplyv a treba ho brať do úvahy, inak má nevýznamný vplyv, ktorý možno zanedbať.
Na výpočet Robs a Rf možno použiť aj nasledujúce vzorce:
(4)
(5)
Celkový priemer nájdeme podľa vzorca (1):
Na výpočet Rtot pomocou vzorca (4) zostavíme tabuľku s možnosťou 2 štvorcov:
NP 2 1P 2 2
1 144 289
2 324 361
3 529 625
4 100 49
5 225 289
1322 1613

Celkový priemer sa vypočíta podľa vzorca (1):

Rtot = 1322 + 1613 - 5 2 16,3 2 = 278,1
Nájdeme R f podľa vzorca (5):
Rf \u003d 5 (15,6 2 + 17 2) - 2 16,3 2 \u003d 4,9
Dostaneme R odpočinok: R odpočinok \u003d R celkom - R f \u003d 278,1 - 4,9 \u003d 273,2
Určujeme faktorový a reziduálny rozptyl:


Ak sú stredné hodnoty náhodnej premennej vypočítané pre jednotlivé vzorky rovnaké, potom sú odhady faktoriálnych a reziduálnych rozptylov nezaujatými odhadmi všeobecného rozptylu a líšia sa nevýznamne.
Potom porovnanie odhadov týchto rozptylov podľa Fisherovho kritéria by malo ukázať, že nie je dôvod zamietnuť nulovú hypotézu o rovnosti faktoriálových a reziduálnych rozptylov.
Odhad rozptylu faktorov je menší ako odhad reziduálneho rozptylu, takže môžeme okamžite potvrdiť platnosť nulovej hypotézy o rovnosti matematických očakávaní pre vrstvy vzorky.
Inými slovami, v tomto príklade faktor Ф významne neovplyvňuje náhodnú premennú.
Pozrime sa na nulovú hypotézu H 0: rovnosť priemerných hodnôt x.
Nájsť f obl

Pre hladinu významnosti α=0,05, počet stupňov voľnosti 1 a 8, zistíme f cr z Fisher-Snedekorovej tabuľky rozdelenia.
fcr (0,05; 1; 8) = 5,32
Vzhľadom na to, že f obs< f кр, нулевую гипотезу о существенном влиянии фактора на результаты экспериментов отклоняем.
Inými slovami, rozloženie verbálnych a neverbálnych preferencií študentov sa líši.

Cvičenie. Závod má štyri linky na výrobu obkladových dlaždíc. Z každej línie sa počas posunu náhodne vybralo 10 dlaždíc a merala sa ich hrúbka (mm). Odchýlky od menovitej veľkosti sú uvedené v tabuľke. Na hladine významnosti a = 0,05 je potrebné zistiť závislosť výroby kvalitných obkladačiek od výrobnej linky (faktor A).

Cvičenie. Na hladine významnosti a = 0,05 skúmajte vplyv farby náteru na životnosť náteru.

Príklad č. 1. Vykonalo sa 13 testov, z toho 4 boli na prvej úrovni faktora, 4 na druhej, 3 na tretej a 2 na štvrtej. Pomocou metódy analýzy rozptylu na hladine významnosti 0,05 overte nulovú hypotézu o rovnosti skupinových priemerov. Predpokladá sa, že vzorky sú odobraté z normálnych populácií s rovnakými rozptylmi. Výsledky testu sú uvedené v tabuľke.

rozhodnutie:
Zistenie priemeru skupiny:

NP 1P 2P 3P 4
1 1.38 1.41 1.32 1.31
2 1.38 1.42 1.33 1.33
3 1.42 1.44 1.34 -
4 1.42 1.45 - -
5.6 5.72 3.99 2.64
x porov 1.4 1.43 1.33 1.32

Označme p - počet úrovní faktora (p=4). Počet meraní na každej úrovni je: 4,4,3,2
Posledný riadok obsahuje priemer skupiny pre každú úroveň faktora.
Celkový priemer sa vypočíta podľa vzorca:

Na výpočet celkového počtu pomocou vzorca (4) zostavíme tabuľku s možnosťou 2 štvorcov:

NP 2 1P 2 2P 2 3P 2 4
1 1.9 1.99 1.74 1.72
2 1.9 2.02 1.77 1.77
3 2.02 2.07 1.8 -
4 2.02 2.1 - -
7.84 8.18 5.31 3.49

Celkový súčet štvorcových odchýlok sa zistí podľa vzorca:


S f nájdeme podľa vzorca:


Dostaneme S odpočinok: S odpočinok \u003d S celkový - Sf \u003d 0,0293 - 0,0263 \u003d 0,003
Určte rozptyl faktorov:

a zvyškový rozptyl:

Ak sú stredné hodnoty náhodnej premennej vypočítané pre jednotlivé vzorky rovnaké, potom sú odhady faktoriálnych a reziduálnych rozptylov nezaujatými odhadmi všeobecného rozptylu a líšia sa nevýznamne.
Potom porovnanie odhadov týchto rozptylov podľa Fisherovho kritéria by malo ukázať, že nie je dôvod zamietnuť nulovú hypotézu o rovnosti faktoriálových a reziduálnych rozptylov.
Odhad faktoriálneho rozptylu je väčší ako odhad reziduálneho rozptylu, takže môžeme okamžite tvrdiť, že nulová hypotéza o rovnosti matematických očakávaní pre vrstvy vzorky nie je pravdivá.
Inými slovami, v tomto príklade má faktor Ф významný vplyv na náhodnú premennú.
Pozrime sa na nulovú hypotézu H 0: rovnosť priemerných hodnôt x.
Nájsť f obl

Pre hladinu významnosti α=0,05, počet stupňov voľnosti 3 a 12, zistíme f cr z Fisher-Snedekorovej tabuľky rozdelenia.
fcr (0,05; 3; 12) = 3,49
Vzhľadom na to, že fobs > fcr, prijímame nulovú hypotézu o významnom vplyve faktora na výsledky experimentov (zamietame nulovú hypotézu o rovnosti skupinových priemerov). Inými slovami, prostriedky skupiny ako celku sa výrazne líšia.

Príklad č. 2. Škola má 5 šiestych ročníkov. Úlohou psychológa je zistiť, či je priemerná úroveň situačnej úzkosti v triedach rovnaká. Na to boli uvedené v tabuľke. Skontrolujte hladinu významnosti α=0,05, predpoklad, že priemerná situačná úzkosť v triedach sa nelíši.

Príklad č. 3. Na štúdium hodnoty X boli vykonané 4 testy na každej z piatich úrovní faktora F. Výsledky testov sú uvedené v tabuľke. Zistite, či je významný vplyv faktora F na hodnotu X. Vezmite α = 0,05. Predpokladá sa, že vzorky sú odobraté z normálnych populácií s rovnakými rozptylmi.

Príklad č. 4. Predpokladajme, že na pedagogickom experimente sa zúčastnili tri skupiny študentov, každá po 10 ľudí. Skupiny používali rôzne vyučovacie metódy: v prvej - tradičné (F 1), v druhej - založené na výpočtovej technike (F 2), v tretej - metódu, ktorá široko využíva úlohy na samostatnú prácu (F 3). Vedomosti sa hodnotili desaťbodovým systémom.
Je potrebné spracovať získané údaje na skúškach a urobiť záver o tom, či je vplyv vyučovacej metódy významný, pričom ako hladinu významnosti treba vziať α=0,05.
Výsledky skúšok sú uvedené v tabuľke, F j - úroveň faktora x ij - hodnotenie i-tého žiaka žiaka podľa metódy F j .

Úroveň faktorov

Príklad číslo 5. Uvádzajú sa výsledky súťažného testovania odrôd plodín (úroda v c.d. ha). Každá odroda bola testovaná na štyroch parcelách. Na štúdium vplyvu odrody na úrodu použite metódu analýzy rozptylu. Významnosť vplyvu faktora (podiel medziskupinovej variácie na celkovej variácii) a významnosť výsledkov experimentu nastavte na hladinu významnosti 0,05.
Výnosy na testovacích plochách odrôd

Rozmanitosť Produktivita pri opakovaní c. z ha
1 2 3 4
1
2
3
42,4
52,5
52,3
37,4
50,1
53,0
40,7
53,8
51,4
38,2
50,7
53,6

ANOVA je súbor štatistických metód určených na testovanie hypotéz o vzťahu medzi určitými znakmi a študovanými faktormi, ktoré nemajú kvantitatívny popis, ako aj na stanovenie miery vplyvu faktorov a ich interakcie. V odbornej literatúre sa často nazýva ANOVA (z anglického názvu Analysis of Variations). Prvýkrát túto metódu vyvinul R. Fischer v roku 1925.

Typy a kritériá pre analýzu rozptylu

Táto metóda sa používa na skúmanie vzťahu medzi kvalitatívnymi (nominálnymi) znakmi a kvantitatívnou (kontinuálnou) premennou. V skutočnosti testuje hypotézu o rovnosti aritmetických priemerov niekoľkých vzoriek. Môže sa teda považovať za parametrické kritérium na porovnanie stredov niekoľkých vzoriek naraz. Ak použijete túto metódu pre dve vzorky, potom budú výsledky analýzy rozptylu totožné s výsledkami Studentovho t-testu. Na rozdiel od iných kritérií vám však táto štúdia umožňuje podrobnejšie študovať problém.

Analýza rozptylu v štatistike je založená na zákone: súčet druhých mocnín odchýlok kombinovanej vzorky sa rovná súčtu druhých mocnín vnútroskupinových odchýlok a súčtu druhých mocnín medziskupinových odchýlok. Pre štúdiu sa na stanovenie významnosti rozdielu medzi medziskupinovými a vnútroskupinovými rozptylmi používa Fisherov test. Na to sú však nevyhnutnými predpokladmi normalita rozloženia a homoskedasticita (rovnosť rozptylov) vzoriek. Rozlišujte medzi jednorozmernou (jednofaktorovou) analýzou rozptylu a viacrozmernou (multifaktorovou). Prvý zvažuje závislosť študovanej hodnoty od jedného atribútu, druhý - od mnohých naraz a tiež vám umožňuje identifikovať vzťah medzi nimi.

Faktory

Faktory sa nazývajú kontrolované okolnosti, ktoré ovplyvňujú konečný výsledok. Jeho úroveň alebo spôsob spracovania sa nazýva hodnota, ktorá charakterizuje konkrétny prejav tohto stavu. Tieto čísla sa zvyčajne uvádzajú v nominálnej alebo ordinálnej stupnici merania. Výstupné hodnoty sa často merajú na kvantitatívnych alebo ordinálnych stupniciach. Potom je tu problém zoskupenia výstupných údajov do série pozorovaní, ktoré zodpovedajú približne rovnakým číselným hodnotám. Ak je počet skupín príliš veľký, potom počet pozorovaní v nich môže byť nedostatočný na získanie spoľahlivých výsledkov. Ak je toto číslo príliš malé, môže to viesť k strate podstatných vlastností vplyvu na systém. Špecifická metóda zoskupovania údajov závisí od objemu a povahy kolísania hodnôt. Počet a veľkosť intervalov v jednorozmernej analýze sú najčastejšie určené princípom rovnakých intervalov alebo princípom rovnakých frekvencií.

Úlohy disperznej analýzy

Takže existujú prípady, keď potrebujete porovnať dve alebo viac vzoriek. Vtedy je vhodné použiť analýzu rozptylu. Názov metódy naznačuje, že závery sa robia na základe štúdie komponentov rozptylu. Podstatou štúdie je, že celková zmena ukazovateľa je rozdelená na zložky, ktoré zodpovedajú pôsobeniu každého jednotlivého faktora. Zvážte množstvo problémov, ktoré rieši typická analýza rozptylu.

Príklad 1

Dielňa disponuje množstvom obrábacích strojov – automatov, ktoré vyrábajú konkrétny diel. Veľkosť každého dielu je náhodná hodnota, ktorá závisí od nastavenia každého stroja a náhodných odchýlok, ktoré sa vyskytujú počas výrobného procesu dielov. Z meraní rozmerov dielov je potrebné zistiť, či sú stroje nastavené rovnako.

Príklad 2

Pri výrobe elektrického prístroja sa používajú rôzne druhy izolačného papiera: kondenzátorový, elektrický atď. Prístroj môže byť impregnovaný rôznymi látkami: epoxidová živica, lak, živica ML-2 atď. Netesnosti je možné eliminovať vo vákuu pri zvýšený tlak pri zahrievaní. Môže sa impregnovať ponorením do laku, pod nepretržitý prúd laku atď. Elektrický prístroj ako celok je poliatý určitou zlúčeninou, ktorej je niekoľko možností. Indikátory kvality sú dielektrická pevnosť izolácie, teplota prehriatia vinutia v prevádzkovom režime a množstvo ďalších. Pri vývoji technologického postupu výroby zariadení je potrebné určiť, ako každý z uvedených faktorov ovplyvňuje výkon zariadenia.

Príklad 3

Trolejbusová vozovňa obsluhuje viacero trolejbusových liniek. Prevádzkujú trolejbusy rôznych typov, cestovné vyberá 125 revízorov. Vedenie vozovne zaujíma otázka: ako porovnať ekonomickú výkonnosť každého kontrolóra (výnosy) vzhľadom na rôzne trasy, rôzne typy trolejbusov? Ako určiť ekonomickú realizovateľnosť uvedenia trolejbusov určitého typu na konkrétnu trasu? Ako stanoviť primerané požiadavky na výšku tržieb, ktoré vodič prináša na každej trase v rôznych typoch trolejbusov?

Úlohou výberu metódy je, ako získať maximum informácií o vplyve na konečný výsledok každého faktora, určiť číselné charakteristiky takéhoto vplyvu, ich spoľahlivosť pri minimálnych nákladoch a v čo najkratšom čase. Metódy disperznej analýzy umožňujú takéto problémy riešiť.

Univariačná analýza

Cieľom štúdie je posúdiť rozsah vplyvu konkrétneho prípadu na analyzované preskúmanie. Ďalšou úlohou jednorozmernej analýzy môže byť porovnanie dvoch alebo viacerých okolností navzájom, aby sa určil rozdiel v ich vplyve na stiahnutie z trhu. Ak je nulová hypotéza zamietnutá, ďalším krokom je kvantifikovať a zostaviť intervaly spoľahlivosti pre získané charakteristiky. V prípade, že nulovú hypotézu nemožno zamietnuť, zvyčajne sa prijme a urobí sa záver o povahe vplyvu.

Jednosmerná analýza rozptylu sa môže stať neparametrickou analógiou Kruskal-Wallisovej rank metódy. Bol vyvinutý americkým matematikom Williamom Kruskalom a ekonómom Wilsonom Wallisom v roku 1952. Tento test je určený na testovanie nulovej hypotézy, že účinky vplyvu na skúmané vzorky sú rovnaké s neznámymi, ale rovnakými strednými hodnotami. V tomto prípade musí byť počet vzoriek väčší ako dve.

Kritérium Jonkhier (Jonkhier-Terpstra) navrhli nezávisle holandský matematik T. J. Terpstrom v roku 1952 a britský psychológ E. R. Jonkhier v roku 1954. Používa sa, keď je vopred známe, že dostupné skupiny výsledkov sú usporiadané podľa zvýšenia vplyv skúmaného faktora, ktorý sa meria na ordinálnej stupnici.

M - Bartlettovo kritérium, navrhnuté britským štatistikom Mauriceom Stevensonom Bartlettom v roku 1937, sa používa na testovanie nulovej hypotézy o rovnosti rozptylov niekoľkých normálnych všeobecných populácií, z ktorých sa odoberajú študované vzorky, vo všeobecnom prípade majúcich rôzne veľkosti. (počet každej vzorky musí byť aspoň štyri).

G je Cochranov test, ktorý objavil Američan William Gemmel Cochran v roku 1941. Používa sa na testovanie nulovej hypotézy o rovnosti rozptylov normálnych populácií pre nezávislé vzorky rovnakej veľkosti.

Neparametrický Levene test, ktorý navrhol americký matematik Howard Levene v roku 1960, je alternatívou k Bartlettovmu testu v podmienkach, kde nie je istota, že skúmané vzorky majú normálnu distribúciu.

V roku 1974 americkí štatistici Morton B. Brown a Alan B. Forsythe navrhli test (Brown-Forsythov test), ktorý sa trochu líši od testu Levene.

Obojsmerná analýza

Pre spojené normálne rozdelené vzorky sa používa dvojcestná analýza rozptylu. V praxi sa často používajú aj zložité tabuľky tejto metódy, najmä tie, v ktorých každá bunka obsahuje súbor údajov (opakovaných meraní) zodpovedajúcich hodnotám pevnej úrovne. Ak nie sú splnené predpoklady potrebné na aplikáciu obojsmernej analýzy rozptylu, potom sa použije neparametrický hodnotový test Friedmana (Friedman, Kendall a Smith), ktorý vyvinul americký ekonóm Milton Friedman na konci roku 1930. Toto kritérium nezávisí od typu distribúcie.

Predpokladá sa len, že rozdelenie veličín je rovnaké a spojité a že samy sú od seba nezávislé. Pri testovaní nulovej hypotézy sú výstupné dáta prezentované vo forme pravouhlej matice, v ktorej riadky zodpovedajú úrovniam faktora B a stĺpce úrovniam A. Každá bunka tabuľky (blok) môže byť výsledok meraní parametrov na jednom objekte alebo na skupine objektov s konštantnými hodnotami úrovní oboch faktorov. V tomto prípade sú zodpovedajúce údaje prezentované ako priemerné hodnoty určitého parametra pre všetky merania alebo objekty skúmanej vzorky. Pre uplatnenie výstupného kritéria je potrebné prejsť od priamych výsledkov meraní k ich poradiu. Poradie sa vykonáva pre každý riadok samostatne, to znamená, že hodnoty sú zoradené pre každú pevnú hodnotu.

Page test (L-test), ktorý navrhol americký štatistik E. B. Page v roku 1963, je určený na testovanie nulovej hypotézy. Pre veľké vzorky sa používa aproximácia strany. V súlade s realitou zodpovedajúcich nulových hypotéz sa riadia štandardným normálnym rozdelením. V prípade, že riadky zdrojovej tabuľky majú rovnaké hodnoty, je potrebné použiť priemerné poradie. V tomto prípade bude presnosť záverov tým horšia, čím väčší bude počet takýchto náhod.

Q - Cochranovo kritérium, navrhnuté V. Cochranom v roku 1937. Používa sa v prípadoch, keď sú skupiny homogénnych subjektov vystavené viac ako dvom vplyvom a pre ktoré sú možné dve možnosti hodnotenia - podmienečne negatívne (0) a podmienečne pozitívne (1 ). Nulová hypotéza pozostáva z rovnosti vplyvov. Obojsmerná analýza rozptylu umožňuje určiť existenciu efektov spracovania, ale neumožňuje určiť, pre ktoré stĺpce tento efekt existuje. Pri riešení tohto problému sa používa metóda viacerých Scheffeových rovníc pre spojené vzorky.

Viacrozmerná analýza

Problém viacrozmernej analýzy rozptylu vzniká, keď je potrebné určiť vplyv dvoch alebo viacerých podmienok na určitú náhodnú premennú. Štúdia počíta s prítomnosťou jednej závislej náhodnej premennej, meranej na škále rozdielov alebo pomerov, a niekoľkých nezávislých premenných, z ktorých každá je vyjadrená na stupnici mien alebo na stupnici poradia. Rozptylová analýza údajov je pomerne rozvinutým odvetvím matematickej štatistiky, ktorá má veľa možností. Koncept štúdie je spoločný pre jednorozmerné aj viacrozmerné štúdie. Jeho podstata spočíva v tom, že celkový rozptyl je rozdelený na zložky, čomu zodpovedá určité zoskupenie údajov. Každé zoskupenie údajov má svoj vlastný model. Tu zvážime len hlavné ustanovenia potrebné na pochopenie a praktické využitie jeho najpoužívanejších variantov.

Faktorová analýza rozptylu si vyžaduje starostlivú pozornosť zberu a prezentácii vstupných údajov a najmä interpretácii výsledkov. Na rozdiel od jednofaktora, ktorého výsledky môžu byť podmienene zaradené do určitej postupnosti, výsledky dvojfaktora si vyžadujú komplexnejšiu prezentáciu. Ešte zložitejšia situácia nastáva pri troch, štyroch alebo viacerých okolnostiach. Z tohto dôvodu model zriedka obsahuje viac ako tri (štyri) podmienky. Príkladom môže byť výskyt rezonancie pri určitej hodnote kapacity a indukčnosti elektrického kruhu; prejav chemickej reakcie s určitým súborom prvkov, z ktorých je systém vybudovaný; výskyt anomálnych efektov v zložitých systémoch za určitej zhody okolností. Prítomnosť interakcie môže radikálne zmeniť model systému a niekedy viesť k prehodnoteniu podstaty javov, s ktorými sa experimentátor zaoberá.

Viacrozmerná analýza rozptylu s opakovanými experimentmi

Údaje z meraní možno často zoskupovať nie podľa dvoch, ale podľa viacerých faktorov. Ak teda vezmeme do úvahy rozptylovú analýzu životnosti pneumatík pre trolejbusové kolesá s prihliadnutím na okolnosti (výrobca a trasa, na ktorej sú pneumatiky používané), potom môžeme ako samostatnú podmienku vyčleniť sezónu, počas ktorej sú používané pneumatiky (a to: zimná a letná prevádzka). V dôsledku toho budeme mať problém s trojfaktorovou metódou.

Za prítomnosti viacerých podmienok je prístup rovnaký ako pri obojsmernej analýze. Vo všetkých prípadoch sa model snaží zjednodušiť. Fenomén interakcie dvoch faktorov sa neobjavuje tak často a k trojitej interakcii dochádza len výnimočne. Zahrňte tie interakcie, pre ktoré existujú predchádzajúce informácie a dobré dôvody na ich zohľadnenie v modeli. Proces izolácie jednotlivých faktorov a ich zohľadnenie je pomerne jednoduchý. Preto je často túžba zdôrazniť viac okolností. Nemali by ste sa tým nechať uniesť. Čím viac podmienok, tým menej spoľahlivý je model a tým väčšia je pravdepodobnosť chyby. Samotný model, ktorý obsahuje veľké množstvo nezávislých premenných, sa stáva dosť ťažko interpretovateľným a nepohodlným pre praktické použitie.

Všeobecná myšlienka analýzy rozptylu

Analýza rozptylu v štatistike je metóda získavania výsledkov pozorovaní, ktoré závisia od rôznych súbežných okolností a hodnotenia ich vplyvu. Riadená premenná, ktorá zodpovedá spôsobu vplyvu na predmet skúmania a v určitom časovom období nadobúda určitú hodnotu, sa nazýva faktor. Môžu byť kvalitatívne a kvantitatívne. Úrovne kvantitatívnych podmienok nadobúdajú v číselnej škále určitú hodnotu. Príkladmi sú teplota, lisovací tlak, množstvo látky. Kvalitatívne faktory sú rôzne látky, rôzne technologické metódy, prístroje, plnivá. Ich úrovne zodpovedajú škále mien.

Ku kvalite patrí aj druh obalového materiálu, podmienky skladovania liekovej formy. Je tiež racionálne zahrnúť stupeň mletia surovín, frakčné zloženie granúl, ktoré majú kvantitatívnu hodnotu, ale je ťažké ich regulovať, ak sa použije kvantitatívna stupnica. Počet faktorov kvality závisí od typu liekovej formy, ako aj od fyzikálnych a technologických vlastností liečivých látok. Napríklad tablety možno získať z kryštalických látok priamym lisovaním. V tomto prípade stačí vykonať výber klzných a mazacích prostriedkov.

Príklady faktorov kvality pre rôzne typy liekových foriem

  • Tinktúry. Zloženie extraktu, typ extraktora, spôsob prípravy suroviny, spôsob výroby, spôsob filtrácie.
  • Extrakty (tekuté, husté, suché). Zloženie extrakčného činidla, spôsob extrakcie, typ inštalácie, spôsob odstraňovania extrakčného činidla a balastných látok.
  • Tabletky. Zloženie pomocných látok, plnív, dezintegračných činidiel, spojív, lubrikantov a lubrikantov. Spôsob získavania tabliet, typ technologického zariadenia. Druh obalu a jeho zložky, filmotvorné látky, pigmenty, farbivá, zmäkčovadlá, rozpúšťadlá.
  • injekčné roztoky. Druh rozpúšťadla, spôsob filtrácie, povaha stabilizátorov a konzervačných látok, podmienky sterilizácie, spôsob plnenia ampuliek.
  • Čapíky. Zloženie čapíkového základu, spôsob získavania čapíkov, plnivá, obaly.
  • Masti. Zloženie základu, štruktúrne zložky, spôsob prípravy masti, typ zariadenia, balenie.
  • Kapsuly. Druh materiálu obalu, spôsob získania kapsúl, typ zmäkčovadla, konzervačná látka, farbivo.
  • Liniments. Spôsob výroby, zloženie, typ zariadenia, typ emulgátora.
  • Pozastavenie. Typ rozpúšťadla, typ stabilizátora, disperzná metóda.

Príklady faktorov kvality a ich úrovne študované v procese výroby tabliet

  • Prášok do pečiva. Zemiakový škrob, biely íl, zmes hydrogénuhličitanu sodného s kyselinou citrónovou, zásaditý uhličitan horečnatý.
  • väzobný roztok. Voda, škrobová pasta, cukrový sirup, roztok metylcelulózy, roztok hydroxypropylmetylcelulózy, roztok polyvinylpyrolidónu, roztok polyvinylalkoholu.
  • klznú látku. Aerosil, škrob, mastenec.
  • Filler. Cukor, glukóza, laktóza, chlorid sodný, fosforečnan vápenatý.
  • Lubrikant. Kyselina stearová, polyetylénglykol, parafín.

Modely rozptylovej analýzy pri štúdiu úrovne konkurencieschopnosti štátu

Jedným z najdôležitejších kritérií hodnotenia stavu štátu, ktoré sa používa na hodnotenie úrovne jeho blahobytu a sociálno-ekonomického rozvoja, je konkurencieschopnosť, teda súbor vlastností národných hospodárstiev, ktoré určujú schopnosť konkurovať iným krajinám. Po určení miesta a úlohy štátu na svetovom trhu je možné stanoviť jasnú stratégiu zabezpečenia ekonomickej bezpečnosti v medzinárodnom meradle, pretože je kľúčom k pozitívnym vzťahom medzi Ruskom a všetkými hráčmi na svetovom trhu: investormi , veritelia, vlády štátov.

Pre porovnanie úrovne konkurencieschopnosti štátov sú krajiny zoradené pomocou komplexných indexov, ktoré zahŕňajú rôzne vážené ukazovatele. Tieto indexy sú založené na kľúčových faktoroch, ktoré ovplyvňujú ekonomickú, politickú situáciu atď. Komplex modelov na štúdium konkurencieschopnosti štátu umožňuje využitie metód viacrozmernej štatistickej analýzy (ide najmä o analýzu rozptylu (štatistika), ekonometrické modelovanie, rozhodovanie) a zahŕňa tieto hlavné etapy:

  1. Vytvorenie sústavy ukazovateľov-ukazovateľov.
  2. Hodnotenie a prognózovanie ukazovateľov konkurencieschopnosti štátu.
  3. Porovnanie ukazovateľov-ukazovateľov konkurencieschopnosti štátov.

A teraz uvažujme o obsahu modelov každej z etáp tohto komplexu.

V prvej fáze metódami odborného štúdia sa vytvára primeraný súbor ekonomických ukazovateľov-ukazovateľov na hodnotenie konkurencieschopnosti štátu s prihliadnutím na špecifiká jeho vývoja na základe medzinárodných ratingov a údajov štatistických útvarov, odrážajúcich stav systému ako celku a jeho procesov. Voľba týchto ukazovateľov je odôvodnená potrebou vybrať tie, ktoré z hľadiska praxe najúplnejšie umožňujú určiť úroveň štátu, jeho investičnú atraktivitu a možnosť relatívnej lokalizácie existujúcich potenciálnych a skutočných hrozieb.

Hlavnými ukazovateľmi-ukazovateľmi medzinárodných ratingových systémov sú indexy:

  1. Globálna konkurencieschopnosť (GCC).
  2. Ekonomická sloboda (IES).
  3. ľudský rozvoj (HDI).
  4. Vnímanie korupcie (CPI).
  5. Vnútorné a vonkajšie ohrozenia (IVZZ).
  6. Potenciál medzinárodného vplyvu (IPIP).

Druhá fáza zabezpečuje hodnotenie a prognózovanie ukazovateľov konkurencieschopnosti štátu podľa medzinárodných ratingov pre skúmaných 139 štátov sveta.

Tretia etapa poskytuje porovnanie podmienok konkurencieschopnosti štátov pomocou metód korelačnej a regresnej analýzy.

Pomocou výsledkov štúdie je možné určiť charakter procesov vo všeobecnosti a pre jednotlivé zložky konkurencieschopnosti štátu; testovať hypotézu o vplyve faktorov a ich vzťahu na príslušnej hladine významnosti.

Implementácia navrhnutého súboru modelov umožní nielen posúdiť súčasnú situáciu úrovne konkurencieschopnosti a investičnej atraktivity štátov, ale aj analyzovať nedostatky riadenia, predchádzať chybám v nesprávnych rozhodnutiach a predchádzať rozvoju krízy. v štáte.

Analýza rozptylu je štatistická metóda na hodnotenie vzťahu medzi faktormi a výkonnostnými charakteristikami v rôznych skupinách, vybraných náhodne, na základe určenia rozdielov (diverzity) v hodnotách charakteristík. Analýza rozptylu je založená na analýze odchýlok všetkých jednotiek skúmanej populácie od aritmetického priemeru. Ako miera odchýlok sa berie disperzia (B) - priemerná štvorec odchýlok. Odchýlky spôsobené vplyvom atribútu faktora (faktora) sa porovnávajú s veľkosťou odchýlok spôsobených náhodnými okolnosťami. Ak sú odchýlky spôsobené atribútom faktora významnejšie ako náhodné odchýlky, potom sa predpokladá, že faktor má významný vplyv na výsledný atribút.

Aby sa vypočítal rozptyl hodnoty odchýlky každej možnosti (každej zaregistrovanej číselnej hodnoty atribútu) od aritmetického priemeru, na druhú. Tým sa zbavíte negatívnych znakov. Potom sa tieto odchýlky (rozdiely) spočítajú a vydelia počtom pozorovaní, t.j. priemerné odchýlky. Takto sa získajú hodnoty disperzie.

Dôležitou metodologickou hodnotou pre aplikáciu analýzy rozptylu je správne zostavenie vzorky. V závislosti od cieľa a cieľov môžu byť selektívne skupiny náhodne vytvorené nezávisle od seba (kontrolné a experimentálne skupiny na štúdium nejakého indikátora, napríklad vplyvu vysokého krvného tlaku na rozvoj mŕtvice). Takéto vzorky sa nazývajú nezávislé.

Často sa výsledky expozície faktorom študujú v rovnakej vzorkovej skupine (napríklad u tých istých pacientov) pred a po expozícii (liečba, prevencia, rehabilitačné opatrenia), takéto vzorky sa nazývajú závislé.

Analýza rozptylu, pri ktorej sa kontroluje vplyv jedného faktora, sa nazýva jednofaktorová analýza (jednorozmerná analýza). Pri štúdiu vplyvu viac ako jedného faktora sa používa viacrozmerná analýza rozptylu (multivariačná analýza).

Faktorové znaky sú znaky, ktoré ovplyvňujú skúmaný jav.

Efektívne znaky sú tie znaky, ktoré sa menia pod vplyvom faktorových znakov.

Podmienky na použitie analýzy rozptylu:

Úlohou štúdie je určiť silu vplyvu jedného (až 3) faktorov na výsledok alebo určiť silu kombinovaného vplyvu rôznych faktorov (pohlavie a vek, fyzická aktivita a výživa atď.).

Skúmané faktory by mali byť navzájom nezávislé (nesúvisiace). Napríklad nemožno skúmať kombinovaný účinok pracovných skúseností a veku, výšky a hmotnosti detí atď. na výskyte obyv.

Výber skupín pre štúdiu sa uskutočňuje náhodne (náhodný výber). Organizácia disperzného komplexu s implementáciou princípu náhodného výberu možností sa nazýva randomizácia (v preklade z angličtiny - náhodný), t.j. vybrané náhodne.

Môžu sa použiť kvantitatívne aj kvalitatívne (atributívne) znaky.

Pri vykonávaní jednosmernej analýzy rozptylu sa odporúča (podmienka nevyhnutná pre aplikáciu):

1. Normálnosť rozloženia analyzovaných skupín alebo zhoda skupín vzoriek so všeobecnými populáciami s normálnym rozdelením.

2. Nezávislosť (neprepojenosť) rozloženia pozorovaní v skupinách.

3. Prítomnosť frekvencie (opakovania sa) pozorovaní.

Najprv sa sformuluje nulová hypotéza, to znamená, že sa predpokladá, že skúmané faktory nemajú žiadny vplyv na hodnoty výsledného atribútu a výsledné rozdiely sú náhodné.

Potom určíme, aká je pravdepodobnosť získania pozorovaných (alebo silnejších) rozdielov za predpokladu, že je pravdivá nulová hypotéza.

Ak je táto pravdepodobnosť malá, potom zamietame nulovú hypotézu a konštatujeme, že výsledky štúdie sú štatisticky významné. To ešte neznamená, že vplyv skúmaných faktorov bol dokázaný (ide predovšetkým o plánovanie výskumu), ale stále je málo pravdepodobné, že výsledok je spôsobený náhodou.

Keď sú splnené všetky podmienky na aplikáciu analýzy rozptylu, rozklad celkového rozptylu matematicky vyzerá takto:

Dotot. = Dfact + D zvyšok.,

Dotot. - celkový rozptyl pozorovaných hodnôt (variant), charakterizovaný rozptylom variantu od celkového priemeru. Meria variáciu vlastnosti v celej populácii pod vplyvom všetkých faktorov, ktoré túto variáciu spôsobili. Celkovú diverzitu tvoria medziskupinové a vnútroskupinové;

Dfact - faktorová (medziskupinová) disperzia, charakterizovaná rozdielom priemerov v každej skupine a závisí od vplyvu študovaného faktora, podľa ktorého je každá skupina diferencovaná. Napríklad v skupinách s rôznymi etiologickými faktormi klinického priebehu pneumónie nie je priemerná úroveň prenocovania rovnaká - pozoruje sa medziskupinová diverzita.

D odpočinok. - zvyškový (vnútroskupinový) rozptyl, ktorý charakterizuje rozptyl variantu v rámci skupín. Odráža náhodné variácie, t.j. časť variácie, ktorá sa vyskytuje pod vplyvom nešpecifikovaných faktorov a nezávisí od znaku – faktora, ktorý je základom zoskupenia. Variácia študovaného znaku závisí od sily vplyvu niektorých nezapočítaných náhodných faktorov, a to ako od organizovaných (daných výskumníkom), tak od náhodných (neznámych) faktorov.

Preto je celková variácia (disperzia) zložená z variácie spôsobenej organizovanými (danými) faktormi, nazývanými faktorová variácia a neorganizované faktory, t.j. zvyšková variácia (náhodná, neznáma).

Pre veľkosť vzorky n sa rozptyl vzorky vypočíta ako súčet štvorcových odchýlok od priemeru vzorky vydelený n-1 (veľkosť vzorky mínus jedna). Pri fixnej ​​veľkosti vzorky n je teda rozptyl funkciou súčtu druhých mocnín (odchýlok), označovaných pre stručnosť SS (z anglického Sum of Squares - Sum of Squares). V nasledujúcom texte často vynechávame slovo „selektívny“, pričom dobre vieme, že uvažujeme o vzorovom rozptyle alebo o odhade rozptylu. Analýza rozptylu je založená na rozdelení rozptylu na časti alebo komponenty. Zvážte nasledujúci súbor údajov:

Priemery týchto dvoch skupín sú výrazne odlišné (2 a 6). Súčet druhých mocnín odchýlok v rámci každej skupiny je 2. Ich sčítaním dostaneme 4. Ak teraz tieto výpočty zopakujeme bez zohľadnenia členstva v skupine, teda ak vypočítame SS na základe celkového priemeru týchto dvoch vzoriek, dostaneme hodnotu 28. Inými slovami, rozptyl (štvorce súčtu) na základe variability v rámci skupiny vedie k oveľa nižším hodnotám, ako sú hodnoty vypočítané na základe celkovej variability (vo vzťahu k celkovému priemeru). Dôvodom je zjavne významný rozdiel medzi priemermi a tento rozdiel medzi prostriedkami vysvetľuje existujúci rozdiel medzi súčtami štvorcov.

SS Sv. PANI F p
Effect 24.0 24.0 24.0 .008
Omyl 4.0 1.0

Ako je zrejmé z tabuľky, celkový súčet druhých mocnín SS = 28 je rozdelený na zložky: súčet druhých mocnín v dôsledku variability v rámci skupiny (2+2=4; pozri druhý riadok tabuľky) a súčet štvorce kvôli rozdielu v priemeroch medzi skupinami (28-(2+ 2)=24; pozri prvý riadok tabuľky). Všimnite si, že MS v tejto tabuľke je stredný štvorec rovný SS delený počtom stupňov voľnosti (stdf).

Vo vyššie uvedenom jednoduchom príklade môžete okamžite vypočítať t-test pre nezávislé vzorky. Získané výsledky sa samozrejme zhodujú s výsledkami analýzy rozptylu.

Avšak situácie, keď je nejaký jav úplne opísaný jednou premennou, sú extrémne zriedkavé. Napríklad, ak sa snažíme naučiť pestovať veľké paradajky, mali by sme zvážiť faktory súvisiace s genetickou štruktúrou rastlín, typom pôdy, svetlom, teplotou atď. Pri vykonávaní typického experimentu sa teda musíte vysporiadať s veľkým množstvom faktorov. Hlavným dôvodom, prečo je použitie ANOVA vhodnejšie ako opätovné porovnávanie dvoch vzoriek na rôznych úrovniach faktorov pomocou série t-testov, je ten, že ANOVA je výrazne efektívnejšia a pre malé vzorky aj informatívnejšia.

Predpokladajme, že v príklade analýzy dvoch vzoriek diskutovanom vyššie pridáme ďalší faktor, ako napríklad pohlavie. Nech sa teraz každá skupina skladá z 3 mužov a 3 žien. Plán tohto experimentu môže byť prezentovaný vo forme tabuľky:

Pred vykonaním výpočtov môžete vidieť, že v tomto príklade má celkový rozptyl aspoň tri zdroje:

1) náhodná chyba (vnútroskupinový rozptyl),

2) variabilita spojená s príslušnosťou k experimentálnej skupine

3) variabilita v dôsledku pohlavia objektov pozorovania.

Všimnite si, že existuje ďalší možný zdroj variability - interakcia faktorov, o ktorej budeme diskutovať neskôr). Čo sa stane, ak do našej analýzy nezahrnieme pohlavie ako faktor a nevypočítame obvyklý t-test? Ak vypočítame súčty druhých mocnín bez ohľadu na pohlavie (t. j. skombinujeme objekty rôzneho pohlavia do jednej skupiny pri výpočte rozptylu v rámci skupiny a získame tak súčet druhých mocnín pre každú skupinu rovný SS = 10 a celkový súčet štvorcov SS = 10+10 = 20), dostaneme väčší vnútroskupinový rozptyl ako pri presnejšej analýze s dodatočným zoskupením podľa pohlavia (v tomto prípade sa vnútroskupinový priemer bude rovnať 2 a celkový vnútroskupinový súčet štvorcov sa rovná SS = 2+2 +2+2 = 8).

Takže so zavedením dodatočného faktora: pohlavie sa zvyškový rozptyl znížil. Je to preto, že priemer mužov je menší ako priemer žien a tento rozdiel v priemeroch zvyšuje celkovú variabilitu v rámci skupiny, ak sa neberie do úvahy pohlavie. Riadenie odchýlky chyby zvyšuje citlivosť (výkon) testu.

Tento príklad ukazuje ďalšiu výhodu analýzy rozptylu v porovnaní s obvyklým dvojvzorkovým t-testom. Analýza rozptylu vám umožňuje študovať každý faktor riadením hodnôt iných faktorov. To je v skutočnosti hlavný dôvod jeho väčšej štatistickej sily (na získanie zmysluplných výsledkov je potrebná menšia veľkosť vzorky). Z tohto dôvodu analýza rozptylu, dokonca aj na malých vzorkách, poskytuje štatisticky významnejšie výsledky ako jednoduchý t-test.

) je navrhnutý tak, aby porovnával iba dve populácie. Často sa však zneužíva na párové porovnávanie viacerých skupín (obr. 1), čo spôsobuje tzv. účinok viacerých porovnaní(Angličtina) viacnásobné porovnania; Glantz 1999, s. 101-104). O tomto efekte a ako sa s ním vysporiadať si povieme neskôr. V tomto príspevku popíšem princípy jednorozmerná analýza rozptylu len určené pre simultánne porovnanie priemerných hodnôt dvoch alebo viacerých skupín. Princípy ANOVA an analýza o f va riance, ANOVA) boli vyvinuté v 20. rokoch 20. storočia. Sir Ronald Aylmer Fisher Ronald Aylmer Fisher) - "génius, ktorý takmer sám položil základy modernej štatistiky" (Hald 1998).

Môže vyvstať otázka: prečo metóda použitá na porovnanie stredná hodnoty sa nazývajú disperzný analýza? Ide o to, že pri stanovení rozdielu medzi priemernými hodnotami v skutočnosti porovnávame rozptyly analyzovaných populácií. Najprv však...

Formulácia problému

Nižšie uvedený príklad je prevzatý z knihy Maindonald & Hnedá(2010). Údaje o hmotnosti sú dostupné pre paradajky (celá rastlina; hmotnosť , v kg) pestované počas 2 mesiacov v troch rôznych experimentálnych podmienkach (trt , od liečbe) - na vode (voda), v prostredí s prídavkom hnojiva (živiny), ako aj v prostredí s prídavkom hnojiva a herbicídu 2,4-D (živina + 24D):

# Vytvorte tabuľku s údajmi: paradajka<- data.frame (weight= c (1.5 , 1.9 , 1.3 , 1.5 , 2.4 , 1.5 , # water 1.5 , 1.2 , 1.2 , 2.1 , 2.9 , 1.6 , # nutrient 1.9 , 1.6 , 0.8 , 1.15 , 0.9 , 1.6 ) , # nutrient+24D trt = rep (c ("Water" , "Nutrient" , "Nutrient+24D" ) , c (6 , 6 , 6 ) ) ) # Pozrite si výsledok: Hmotnosť TRT 1 1,50 Voda 2 1,90 Voda 3 1,30 Voda 4 1,50 Voda 5 2,40 Voda 6 1,50 Voda 7 1,50 NUTWE 8 1,20 NUTWE 9 1,20 NUTRET 11 2,90 NUTRIGENT 12 1,60 NUTET 13 1,6 1,6 1,6 1,6 1,6 1,6 1,6 1,6 1,6 1,6 1,6,80 +24D 16 1,15 Živina+24D 17 0,90 Živina+24D 18 1,60 Živina+24D


Premenná trt je faktor s tromi úrovňami. Pre lepšie vizuálne porovnanie experimentálnych podmienok v budúcnosti urobíme „vodnú“ hladinu ako základnú (angl. odkaz), t.j. úroveň, s ktorou bude R porovnávať všetky ostatné úrovne. Dá sa to urobiť pomocou funkcie relevel():


Pre lepšie pochopenie vlastností dostupných údajov ich vizualizujeme pomocou pozorovaných rozdielov medzi skupinami, priemery sú nevýznamné a sú spôsobené vplyvom náhodných faktorov (t.j. v skutočnosti všetky získané merania hmotnosti rastlín pochádzajú z jednej normálne rozloženej všeobecnej populácie) :

Ešte raz zdôrazňujeme, že uvažovaný príklad zodpovedá prípadu jednofaktorový analýza rozptylu: študujeme vplyv jedného faktora - podmienok pestovania (s tromi úrovňami - Voda , Živina a Živina + 24D ) na premennú odozvy, ktorá nás zaujíma - hmotnosť rastlín.

Bohužiaľ, výskumník takmer nikdy nemá možnosť študovať celú populáciu. Ako potom môžeme vedieť, či je vyššie uvedená nulová hypotéza pravdivá len na základe vzorových údajov? Túto otázku môžeme formulovať inak: aká je pravdepodobnosť získania pozorovaných rozdielov medzi skupinovými priemermi na základe náhodných vzoriek z jednej normálne rozloženej populácie? Na zodpovedanie tejto otázky potrebujeme štatistický test, ktorý by kvantitatívne charakterizoval veľkosť rozdielov medzi porovnávanými skupinami.