Tekijä- ja dispersioanalyysi Excelissä laskentaautomaatiolla. Yksisuuntainen varianssianalyysi

Ominaisuuden vaihtelevuuden analysoimiseksi kontrolloitujen muuttujien vaikutuksen alaisena käytetään dispersiomenetelmää.

Arvojen välisen suhteen tutkiminen - tekijämenetelmä. Tarkastellaanpa analyyttisiä työkaluja tarkemmin: tekijä-, dispersio- ja kaksitekijädispersiomenetelmät vaihtelevuuden arvioimiseksi.

ANOVA Excelissä

Ehdollisesti dispersiomenetelmän tavoite voidaan muotoilla seuraavasti: eristää parametrin 3 kokonaisvaihteluista erityinen vaihtelu:

  • 1 - määräytyy kunkin tutkitun arvon vaikutuksesta;
  • 2 - tutkittujen arvojen välisen suhteen sanelema;
  • 3 - satunnainen, kaikkien huomioimattomien olosuhteiden sanelema.

Microsoft Excelissä varianssianalyysi voidaan suorittaa "Data Analysis" -työkalulla (välilehti "Data" - "Analysis"). Tämä on laskentataulukon lisäosa. Jos apuohjelma ei ole saatavilla, sinun on avattava "Excel-asetukset" ja otettava asetus käyttöön analysointia varten.

Työ alkaa pöydän suunnittelulla. Säännöt:

  1. Jokaisen sarakkeen tulee sisältää yhden tutkittavan tekijän arvot.
  2. Järjestä sarakkeet nousevaan/laskevaan järjestykseen tutkittavan parametrin arvon mukaan.

Harkitse varianssianalyysiä Excelissä esimerkin avulla.

Yrityksen psykologi analysoi erityistekniikalla työntekijöiden käyttäytymisstrategiaa konfliktitilanteessa. Oletuksena on, että koulutustaso vaikuttaa käyttäytymiseen (1 - keskiasteen, 2 - toisen asteen erikoistunut, 3 - korkeakoulutus).

Syötä tiedot Excel-laskentataulukkoon:


Merkittävä parametri on täytetty keltaisella värillä. Koska ryhmien välinen P-arvo on suurempi kuin 1, Fisherin testiä ei voida pitää merkitsevänä. Näin ollen käyttäytyminen konfliktitilanteessa ei riipu koulutustasosta.



Tekijäanalyysi Excelissä: esimerkki

Tekijäanalyysi on monimuuttujaanalyysi muuttujien arvojen välisistä suhteista. Tällä menetelmällä voit ratkaista tärkeimmät tehtävät:

  • kuvaile mitattava kohde kattavasti (lisäksi kapasiteetin, tiiviisti);
  • tunnistaa piilotetut muuttujaarvot, jotka määrittävät lineaaristen tilastollisten korrelaatioiden olemassaolon;
  • luokitella muuttujat (määrittää niiden välinen suhde);
  • vähentää tarvittavien muuttujien määrää.

Harkitse esimerkkiä tekijäanalyysistä. Oletetaan, että tiedämme minkä tahansa tavaran myynnin viimeisten 4 kuukauden ajalta. On tarpeen analysoida, mitkä tuotteet ovat kysyttyjä ja mitkä eivät.



Nyt näkee selkeästi mikä tuotemyynti tuottaa pääkasvun.

Kaksisuuntainen varianssianalyysi Excelissä

Näyttää kuinka kaksi tekijää vaikuttaa satunnaismuuttujan arvon muutokseen. Harkitse kaksisuuntaista varianssianalyysiä Excelissä esimerkin avulla.

Tehtävä. Ryhmä miehiä ja naisia ​​esiteltiin eri äänenvoimakkuuksilla: 1 - 10 dB, 2 - 30 dB, 3 - 50 dB. Vastausaika tallennettiin millisekunteina. On tarpeen määrittää, vaikuttaako sukupuoli vasteeseen; Vaikuttaako äänenvoimakkuus vasteeseen?

Tehtävä . 1. vuoden opiskelijoille tehtiin kysely, jonka tarkoituksena oli tunnistaa toiminnot, joille he omistavat vapaa-aikansa. Tarkista, eroavatko opiskelijoiden sanalliset ja ei-verbaaliset mieltymykset.

Ratkaisu suoritetaan laskimen avulla.
Ryhmäkeskiarvojen löytäminen:

NP 1P 2
1 12 17
2 18 19
3 23 25
4 10 7
5 15 17
x vrt 15.6 17

Merkitään p - tekijän tasojen lukumäärä (p=2). Mittausten määrä kullakin tasolla on sama ja q=5.
Viimeinen rivi sisältää ryhmän keskiarvot kullekin tekijän tasolle.
Kokonaiskeskiarvo saadaan ryhmän keskiarvojen aritmeettisena keskiarvona:
(1)
Epäonnistumisprosentin ryhmäkeskiarvojen leviämiseen suhteessa kokonaiskeskiarvoon vaikuttavat sekä tarkastelun tekijän tason muutokset että satunnaiset tekijät.
Tämän tekijän vaikutuksen huomioon ottamiseksi näytteen kokonaisvarianssi jaetaan kahteen osaan, joista ensimmäistä kutsutaan faktoriaaliksi S 2 f ja toiseksi - jäännös-S 2 -levioksi.
Näiden komponenttien huomioon ottamiseksi lasketaan ensin variantin neliöityjen poikkeamien kokonaissumma kokonaiskeskiarvosta:

ja ryhmän keskiarvojen neliöityjen poikkeamien tekijäsumma kokonaiskeskiarvosta, joka kuvaa tämän tekijän vaikutusta:

Viimeinen lauseke saadaan korvaamalla jokainen variantti Rtot-lausekkeessa tietyn tekijän ryhmän keskiarvolla.
Poikkeamien neliösumma saadaan erotuksena:
R lepo \u003d R yhteensä - R f
Näytteen kokonaisvarianssin määrittämiseksi on tarpeen jakaa Rtotal mittausten lukumäärällä pq:

ja puolueettoman kokonaisnäytteen varianssin saamiseksi tämä lauseke on kerrottava pq/(pq-1):llä:

Vastaavasti puolueettomalle tekijänäytevarianssille:

jossa p-1 on puolueettoman tekijänäytevarianssin vapausasteiden lukumäärä.
Jotta voidaan arvioida tekijän vaikutusta tarkasteltavan parametrin muutoksiin, arvo lasketaan:

Koska kahden näytevarianssin S 2 f ja S 2 rest suhde jakautuu Fisher-Snedekorin lain mukaan, saatua arvoa f obs verrataan jakaumafunktion arvoon.

kriittisessä pisteessä f cr, joka vastaa valittua merkitsevyystasoa a.
Jos f obl >f cr, niin tekijällä on merkittävä vaikutus ja se tulee ottaa huomioon, muuten sillä on merkityksetön vaikutus, joka voidaan jättää huomiotta.
Seuraavia kaavoja voidaan käyttää myös Robsin ja Rf:n laskemiseen:
(4)
(5)
Löydämme kokonaiskeskiarvon kaavalla (1):
Rtot:n laskemiseksi kaavan (4) avulla laadimme taulukon, jossa on 2 neliövaihtoehtoa:
NP 2 1P 2 2
1 144 289
2 324 361
3 529 625
4 100 49
5 225 289
1322 1613

Kokonaiskeskiarvo lasketaan kaavalla (1):

Rtot = 1322 + 1613 - 5 2 16,3 2 = 278,1
Löydämme Rf:n kaavan (5) mukaan:
R f = 5 (15,6 2 + 17 2) - 2 16,3 2 \u003d 4,9
Saamme R lepo: R lepo \u003d R yhteensä - R f \u003d 278,1 - 4,9 \u003d 273,2
Määritämme tekijä- ja jäännösvarianssin:


Jos yksittäisille otoksille lasketun satunnaismuuttujan keskiarvot ovat samat, niin tekijä- ja jäännösvarianssien estimaatit ovat yleisvarianssin puolueettomia arvioita ja eroavat merkityksettömästi.
Tällöin näiden varianssien estimaattien vertailu Fisher-kriteerin mukaan osoittaa, ettei ole mitään syytä hylätä nollahypoteesia tekijä- ja jäännösvarianssien yhtäläisyydestä.
Tekijänvarianssin estimaatti on pienempi kuin jäännösvarianssin estimaatti, joten voimme välittömästi väittää nollahypoteesin pätevyyden matemaattisten odotusten yhtäläisyydestä otoksen kerroksille.
Toisin sanoen tässä esimerkissä tekijä Ф ei merkittävästi vaikuta satunnaismuuttujaan.
Tarkastetaan nollahypoteesi H 0: x:n keskiarvojen yhtäläisyys.
Etsi f obl

Merkitsevyystasolle α=0,05, vapausasteiden lukumäärälle 1 ja 8, löydämme Fisher-Snedekor-jakaumataulukosta f cr.
fcr (0,05; 1; 8) = 5,32
Johtuen siitä, että f obs< f кр, нулевую гипотезу о существенном влиянии фактора на результаты экспериментов отклоняем.
Toisin sanoen opiskelijoiden sanallisten ja ei-verbaalisten mieltymysten jakautuminen vaihtelee.

Tehtävä. Tehtaalla on neljä linjaa päällyslaattojen tuotantoa varten. Jokaiselta riviltä valittiin satunnaisesti 10 laattaa työvuoron aikana ja niiden paksuus (mm) mitattiin. Poikkeamat nimelliskoosta on esitetty taulukossa. Merkitystasolla a = 0,05 vaaditaan laadukkaiden laattojen tuotannon riippuvuuden määrittäminen tuotantolinjasta (tekijä A).

Tehtävä. Merkitsevyystasolla a = 0,05 tutki maalin värin vaikutusta pinnoitteen käyttöikään.

Esimerkki #1. Testejä tehtiin 13, joista 4 oli tekijän ensimmäisellä tasolla, 4 oli toisella, 3 oli kolmannella ja 2 oli neljännellä tasolla. Tarkasta nollahypoteesi ryhmän keskiarvojen yhtäläisyydestä käyttämällä varianssianalyysimenetelmää merkitsevyystasolla 0,05. Oletetaan, että näytteet on otettu normaaleista populaatioista, joilla on samat varianssit. Testitulokset näkyvät taulukossa.

Ratkaisu:
Ryhmäkeskiarvojen löytäminen:

NP 1P 2P 3P 4
1 1.38 1.41 1.32 1.31
2 1.38 1.42 1.33 1.33
3 1.42 1.44 1.34 -
4 1.42 1.45 - -
5.6 5.72 3.99 2.64
x vrt 1.4 1.43 1.33 1.32

Merkitään p - tekijän tasojen lukumäärä (p=4). Mittausten lukumäärä kullakin tasolla on: 4,4,3,2
Viimeinen rivi sisältää ryhmän keskiarvot kullekin tekijän tasolle.
Kokonaiskeskiarvo lasketaan kaavalla:

Kokonaissumman laskemiseksi kaavan (4) avulla laadimme taulukon, jossa on 2 neliövaihtoehtoa:

NP 2 1P 2 2P 2 3P 2 4
1 1.9 1.99 1.74 1.72
2 1.9 2.02 1.77 1.77
3 2.02 2.07 1.8 -
4 2.02 2.1 - -
7.84 8.18 5.31 3.49

Poikkeamien neliösumma saadaan kaavasta:


Löydämme S f kaavasta:


Saamme S lepo: S lepo \u003d S yhteensä - S f \u003d 0,0293 - 0,0263 \u003d 0,003
Määritä tekijävarianssi:

ja jäännösvarianssi:

Jos yksittäisille otoksille lasketun satunnaismuuttujan keskiarvot ovat samat, niin tekijä- ja jäännösvarianssien estimaatit ovat yleisvarianssin puolueettomia arvioita ja eroavat merkityksettömästi.
Tällöin näiden varianssien estimaattien vertailu Fisher-kriteerin mukaan osoittaa, ettei ole mitään syytä hylätä nollahypoteesia tekijä- ja jäännösvarianssien yhtäläisyydestä.
Tekijän varianssin estimaatti on suurempi kuin jäännösvarianssin estimaatti, joten voimme heti väittää, että nollahypoteesi matemaattisten odotusten yhtäläisyydestä näytekerrosten välillä ei pidä paikkaansa.
Toisin sanoen tässä esimerkissä tekijä Ф vaikuttaa merkittävästi satunnaismuuttujaan.
Tarkastetaan nollahypoteesi H 0: x:n keskiarvojen yhtäläisyys.
Etsi f obl

Merkitsevyystasolle α=0,05, vapausasteiden lukumäärälle 3 ja 12, löydämme Fisher-Snedekor-jakaumataulukosta f cr.
fcr (0,05; 3; 12) = 3,49
Johtuen siitä, että f obl > f cr, hyväksymme nollahypoteesin tekijän merkittävästä vaikutuksesta kokeiden tuloksiin (hylkäämme nollahypoteesin ryhmän keskiarvojen yhtäläisyydestä). Toisin sanoen ryhmä tarkoittaa kokonaisuutena eroa merkittävästi.

Esimerkki #2. Koulussa on 5 kuudetta luokkaa. Psykologin tehtävänä on selvittää, onko keskimääräinen tilanneahdistuksen taso tunneilla sama. Tämä on annettu taulukossa. Tarkista merkitsevyystaso α=0,05, oletuksena, että luokkien keskimääräinen tilanneahdistus ei eroa.

Esimerkki #3. X:n arvon tutkimiseksi suoritettiin 4 testiä kullakin viidellä tekijän F tasolla. Testitulokset on esitetty taulukossa. Selvitä, onko tekijän F vaikutus X:n arvoon merkitsevä.Otetaan α = 0,05. Oletetaan, että näytteet on otettu normaaleista populaatioista, joilla on samat varianssit.

Esimerkki #4. Oletetaan, että pedagogiseen kokeiluun osallistui kolme opiskelijaryhmää, kussakin 10 henkilöä. Ryhmissä käytettiin erilaisia ​​opetusmenetelmiä: ensimmäisessä - perinteinen (F 1), toisessa - tietotekniikkaan perustuva (F 2), kolmannessa - menetelmä, joka käyttää laajasti itsenäisen työn tehtäviä (F 3). Tietoa arvioitiin kymmenen pisteen järjestelmässä.
Saadut tentitiedot tulee käsitellä ja tehdä johtopäätös siitä, onko opetusmenetelmän vaikutus merkittävä, merkitsevyystasoksi α=0,05.
Tenttitulokset on esitetty taulukossa, F j - tekijän x ij taso - opiskelijan i:nnen opiskelijan arvio menetelmällä F j .

Tekijätaso

Esimerkki numero 5. Viljelykasvien kilpailevan lajiketestauksen tulokset esitetään (sato c.d.ha). Jokainen lajike testattiin neljällä koealalla. Käytä varianssianalyysimenetelmää tutkiaksesi lajikkeen vaikutusta satoon. Aseta tekijän vaikutuksen merkitys (ryhmien välisen vaihtelun osuus kokonaisvaihtelussa) ja kokeen tulosten merkitsevyys merkitsevyystasolle 0,05.
Sato lajikekoepalstoilla

Lajike Tuottavuus c. alkaen ha
1 2 3 4
1
2
3
42,4
52,5
52,3
37,4
50,1
53,0
40,7
53,8
51,4
38,2
50,7
53,6

ANOVA on joukko tilastollisia menetelmiä, jotka on suunniteltu testaamaan hypoteeseja tiettyjen piirteiden ja tutkittujen tekijöiden välisestä suhteesta, joilla ei ole kvantitatiivista kuvausta, sekä määrittää tekijöiden ja niiden vuorovaikutuksen vaikutusaste. Erikoiskirjallisuudessa sitä kutsutaan usein ANOVAksi (englanninkielisestä nimestä Analysis of Variations). Tämän menetelmän kehitti ensimmäisenä R. Fischer vuonna 1925.

Varianssianalyysin tyypit ja kriteerit

Tätä menetelmää käytetään laadullisten (nimellisten) ominaisuuksien ja kvantitatiivisen (jatkuvan) muuttujan välisen suhteen tutkimiseen. Itse asiassa se testaa hypoteesia useiden näytteiden aritmeettisten keskiarvojen yhtäläisyydestä. Näin ollen sitä voidaan pitää parametrisena kriteerinä useiden näytteiden keskipisteiden vertaamisessa kerralla. Jos käytät tätä menetelmää kahdelle näytteelle, varianssianalyysin tulokset ovat identtiset Studentin t-testin tulosten kanssa. Kuitenkin toisin kuin muut kriteerit, tämä tutkimus antaa sinun tutkia ongelmaa yksityiskohtaisemmin.

Tilastojen varianssianalyysi perustuu lakiin: yhdistetyn otoksen neliöpoikkeamien summa on yhtä suuri kuin ryhmän sisäisten poikkeamien neliöiden summa ja ryhmien välisten poikkeamien neliöiden summa. Tutkimuksessa käytetään Fisherin testiä ryhmien välisten ja ryhmien sisäisten varianssien välisen eron merkityksen selvittämiseen. Tämän välttämättömät edellytykset ovat kuitenkin jakauman normaalius ja näytteiden homoskedastisuus (varianssien tasaisuus). Erota yksiulotteinen (yksitekijäinen) varianssianalyysi ja monimuuttuja (monitekijäinen). Ensimmäinen ottaa huomioon tutkitun arvon riippuvuuden yhdestä attribuutista, toinen - useista kerralla, ja antaa sinun myös tunnistaa niiden välisen suhteen.

tekijät

Tekijöitä kutsutaan kontrolloiduiksi olosuhteiksi, jotka vaikuttavat lopputulokseen. Sen tasoa tai käsittelytapaa kutsutaan arvoksi, joka luonnehtii tämän tilan erityistä ilmentymää. Nämä luvut annetaan yleensä nimellis- tai järjestysmitta-asteikolla. Usein lähtöarvot mitataan kvantitatiivisilla tai järjestysasteikoilla. Sitten on ongelmana tulostietojen ryhmitteleminen havaintojen sarjaan, jotka vastaavat suunnilleen samoja numeerisia arvoja. Jos ryhmien lukumäärä otetaan liian suureksi, niissä olevien havaintojen määrä saattaa olla riittämätön luotettavien tulosten saamiseksi. Jos luku otetaan liian pieneksi, tämä voi johtaa järjestelmän vaikuttavien olennaisten ominaisuuksien menettämiseen. Tietty tietojen ryhmittelytapa riippuu arvojen vaihtelun määrästä ja luonteesta. Intervallien lukumäärä ja koko yksimuuttujaanalyysissä määräytyvät useimmiten yhtäläisten intervallien periaatteella tai yhtäläisten taajuuksien periaatteella.

Dispersioanalyysin tehtävät

Joten on tapauksia, joissa sinun on verrattava kahta tai useampaa näytettä. Silloin on suositeltavaa käyttää varianssianalyysiä. Menetelmän nimi kertoo, että johtopäätökset tehdään varianssin komponenttien tutkimuksen perusteella. Tutkimuksen ydin on, että indikaattorin kokonaismuutos jaetaan komponentteihin, jotka vastaavat kunkin yksittäisen tekijän toimintaa. Harkitse useita ongelmia, jotka tyypillinen varianssianalyysi ratkaisee.

Esimerkki 1

Pajalla on useita työstökoneita - automaattisia koneita, jotka valmistavat tietyn osan. Kunkin osan koko on satunnainen arvo, joka riippuu kunkin koneen asetuksista ja osien valmistusprosessin aikana tapahtuvista satunnaisista poikkeamista. Osien mittojen perusteella on tarpeen määrittää, onko koneet asennettu samalla tavalla.

Esimerkki 2

Sähkölaitteen valmistuksessa käytetään erilaisia ​​eristyspapereita: kondensaattori-, sähkö- jne. Laite voidaan kyllästää erilaisilla aineilla: epoksihartsilla, lakalla, ML-2-hartsilla jne. Vuodot voidaan poistaa tyhjiössä klo. kohonnut paine kuumennettaessa. Se voidaan kyllästää upottamalla lakkaan, jatkuvan lakkavirran alla jne. Sähkölaite kokonaisuudessaan kaadetaan tietyllä yhdisteellä, jota on useita vaihtoehtoja. Laatuindikaattoreita ovat eristyksen dielektrisyys, käämin ylikuumenemislämpötila käyttötilassa ja monet muut. Laitteiden valmistusprosessin kehittämisen aikana on tarpeen määrittää, kuinka kukin luetelluista tekijöistä vaikuttaa laitteen suorituskykyyn.

Esimerkki 3

Johdinautovarikko palvelee useita johdinautoreittejä. He kuljettavat erityyppisiä johdinautoja ja 125 tarkastajaa kerää hintoja. Varaston johtoa kiinnostaa kysymys: kuinka vertailla kunkin lennonjohtajan taloudellista suorituskykyä (tuloa) eri reitit, erityyppiset johdinautot huomioon ottaen? Kuinka määrittää taloudellinen kannattavuus tietyntyyppisten johdinautojen käynnistämiseksi tietyllä reitillä? Kuinka asettaa kohtuulliset vaatimukset konduktöörin kullekin reitille erityyppisissä johdinautoissa tuomalle tulolle?

Menetelmän valinnan tehtävänä on saada mahdollisimman paljon tietoa kunkin tekijän vaikutuksesta lopputulokseen, määrittää vaikutuksen numeeriset ominaisuudet, niiden luotettavuus mahdollisimman pienin kustannuksin ja mahdollisimman lyhyessä ajassa. Dispersioanalyysimenetelmät mahdollistavat tällaisten ongelmien ratkaisemisen.

Yksimuuttuja-analyysi

Tutkimuksen tavoitteena on arvioida yksittäisen tapauksen vaikutuksen suuruus analysoitavaan katsaukseen. Toinen yksimuuttuja-analyysin tehtävä voi olla kahden tai useamman tilanteen vertaaminen toisiinsa, jotta voidaan määrittää ero niiden vaikutuksessa takaisinvetoon. Jos nollahypoteesi hylätään, seuraava vaihe on kvantifioida ja rakentaa luottamusvälit saaduille ominaisuuksille. Siinä tapauksessa, että nollahypoteesia ei voida hylätä, se yleensä hyväksytään ja tehdään johtopäätös vaikutuksen luonteesta.

Yksisuuntaisesta varianssianalyysistä voi tulla ei-parametrinen analogi Kruskal-Wallis rank -menetelmälle. Sen kehittivät amerikkalainen matemaatikko William Kruskal ja taloustieteilijä Wilson Wallis vuonna 1952. Tämän testin tarkoituksena on testata nollahypoteesia, jonka mukaan vaikutuksen vaikutukset tutkittuihin näytteisiin ovat yhtä suuret kuin tuntemattomat mutta samat keskiarvot. Tässä tapauksessa näytteiden lukumäärän on oltava enemmän kuin kaksi.

Jonkhier-kriteerin (Jonkhier-Terpstra) ehdottivat itsenäisesti hollantilainen matemaatikko T. J. Terpstrom vuonna 1952 ja brittiläinen psykologi E. R. Jonkhier vuonna 1954. Sitä käytetään, kun tiedetään etukäteen, että käytettävissä olevat tulosryhmät ovat järjestyneet tulosten kasvun mukaan. tutkittavan tekijän vaikutus, joka mitataan järjestysasteikolla.

M - Bartlett-kriteeriä, jonka brittiläinen tilastotieteilijä Maurice Stevenson Bartlett ehdotti vuonna 1937, käytetään nollahypoteesin testaamiseen useiden normaaleiden yleisten populaatioiden varianssien yhtäläisyydestä, joista tutkitut näytteet on yleensä otettu erikokoisina. (kunkin näytteen lukumäärän on oltava vähintään neljä).

G on Cochranin testi, jonka amerikkalainen William Gemmel Cochran löysi vuonna 1941. Sitä käytetään testaamaan nollahypoteesia normaalipopulaatioiden varianssien yhtäläisyydestä samankokoisille riippumattomille näytteille.

Amerikkalaisen matemaatikon Howard Levenen vuonna 1960 ehdottama ei-parametrinen Levene-testi on vaihtoehto Bartlett-testille olosuhteissa, joissa ei ole varmuutta siitä, että tutkittavat näytteet noudattavat normaalijakaumaa.

Vuonna 1974 amerikkalaiset tilastotieteilijät Morton B. Brown ja Alan B. Forsythe ehdottivat testiä (Brown-Forsythin testi), joka on hieman erilainen kuin Levene-testi.

Kaksisuuntainen analyysi

Kaksisuuntaista varianssianalyysiä käytetään linkitetyille normaalijakautuneille näytteille. Käytännössä käytetään usein myös tämän menetelmän monimutkaisia ​​taulukoita, erityisesti sellaisia, joissa jokainen solu sisältää kiinteitä tasoarvoja vastaavan datajoukon (toistuvia mittauksia). Jos kaksisuuntaisen varianssianalyysin soveltamiseen tarvittavat oletukset eivät täyty, käytetään Friedmanin (Friedman, Kendall ja Smith) ei-parametrista arvotestiä, jonka amerikkalainen taloustieteilijä Milton Friedman on kehittänyt vuoden 1930 lopussa. Tämä kriteeri ei riipu jakelutyypistä.

Oletetaan vain, että suureiden jakauma on sama ja jatkuva ja että ne itse ovat toisistaan ​​riippumattomia. Nollahypoteesia testattaessa tulostiedot esitetään suorakaiteen muotoisena matriisina, jossa rivit vastaavat tekijän B tasoja ja sarakkeet tasoja A. Taulukon (lohkon) jokainen solu voi olla tulos parametrien mittauksista yhdestä objektista tai objektiryhmästä molempien tekijöiden tasojen vakioarvoilla. Tässä tapauksessa vastaavat tiedot esitetään tietyn parametrin keskiarvoina kaikille tutkittavan näytteen mittauksille tai kohteille. Tuloskriteerin soveltamiseksi on siirryttävä suorista mittaustuloksista niiden arvoon. Järjestys suoritetaan jokaiselle riville erikseen, eli arvot tilataan jokaiselle kiinteälle arvolle.

Amerikkalaisen tilastotieteilijän E. B. Pagen vuonna 1963 ehdottama Page testi (L-testi) on suunniteltu testaamaan nollahypoteesia. Suurille näytteille käytetään sivun approksimaatiota. Vastaavien nollahypoteesien todellisuudesta riippuen ne noudattavat normaalia normaalijakaumaa. Jos lähdetaulukon riveillä on samat arvot, on käytettävä keskimääräisiä arvoja. Tässä tapauksessa päätelmien tarkkuus on sitä huonompi, mitä suurempi on tällaisten yhteensattumien määrä.

Q - Cochranin kriteeri, jonka V. Cochran ehdotti vuonna 1937. Sitä käytetään tapauksissa, joissa homogeenisten aiheiden ryhmät ovat alttiina useammalle kuin kahdelle vaikutukselle ja joille on mahdollista arvioida kaksi vaihtoehtoa - ehdollisesti negatiivinen (0) ja ehdollisesti positiivinen (1). ) . Nollahypoteesi koostuu vaikutusvaikutusten yhtäläisyydestä. Kaksisuuntainen varianssianalyysi mahdollistaa prosessointivaikutusten olemassaolon määrittämisen, mutta sen avulla ei voida määrittää, mille sarakkeille tämä vaikutus on olemassa. Tätä ongelmaa ratkaistaessa käytetään useiden Scheffen yhtälöiden menetelmää kytketyille näytteille.

Monimuuttuja-analyysi

Monimuuttujavarianssianalyysin ongelma syntyy, kun on tarpeen määrittää kahden tai useamman ehdon vaikutus tiettyyn satunnaismuuttujaan. Tutkimuksessa otetaan huomioon yksi riippuvainen satunnaismuuttuja, joka mitataan ero- tai suhdeasteikolla, ja useita riippumattomia muuttujia, joista jokainen ilmaistaan ​​nimiasteikolla tai asteikolla. Tietojen dispersioanalyysi on melko kehittynyt matemaattisen tilaston haara, jolla on paljon vaihtoehtoja. Tutkimuksen käsite on yhteinen sekä yksimuuttuja- että monimuuttujatutkimuksille. Sen olemus on siinä, että kokonaisvarianssi on jaettu komponentteihin, mikä vastaa tiettyä dataryhmää. Jokaisella dataryhmällä on oma mallinsa. Tässä tarkastellaan vain tärkeimpiä säännöksiä, jotka ovat välttämättömiä sen eniten käytettyjen muunnelmien ymmärtämiseksi ja käytännön käyttämiseksi.

Varianssitekijäanalyysi vaatii huolellista huomiota syöttötietojen keräämiseen ja esittämiseen sekä erityisesti tulosten tulkintaan. Toisin kuin yksitekijä, jonka tulokset voidaan ehdollisesti asettaa tiettyyn järjestykseen, kaksitekijän tulokset vaativat monimutkaisempaa esitystä. Vielä vaikeampi tilanne syntyy, kun olosuhteita on kolme, neljä tai enemmän. Tästä johtuen malli sisältää harvoin enemmän kuin kolme (neljä) ehtoa. Esimerkkinä voisi olla resonanssin esiintyminen tietyllä sähköympyrän kapasitanssin ja induktanssin arvolla; kemiallisen reaktion ilmentymä tietyn elementtijoukon kanssa, josta järjestelmä on rakennettu; poikkeavien vaikutusten esiintyminen monimutkaisissa järjestelmissä tietyissä olosuhteiden sattuessa. Vuorovaikutuksen olemassaolo voi muuttaa järjestelmän mallia radikaalisti ja joskus johtaa kokeilun kohteena olevien ilmiöiden luonteen uudelleen ajattelemiseen.

Monimuuttujavarianssianalyysi toistuvilla kokeilla

Mittaustiedot voidaan usein ryhmitellä kahden, vaan useamman tekijän mukaan. Joten jos tarkastellaan johdinauton pyörien renkaiden käyttöiän hajonta-analyysiä ottaen huomioon olosuhteet (valmistaja ja renkaiden käyttöreitti), voidaan erillisenä ehtona erottaa se kausi, jonka aikana renkaat ovat käytössä (eli: talvi- ja kesäkäyttö). Tämän seurauksena meillä on kolmitekijämenetelmän ongelma.

Jos ehtoja on enemmän, lähestymistapa on sama kuin kaksisuuntaisessa analyysissä. Kaikissa tapauksissa malli yrittää yksinkertaistaa. Kahden tekijän vuorovaikutusilmiö ei esiinny niin usein, ja kolmoisvuorovaikutusta esiintyy vain poikkeustapauksissa. Sisällytä ne vuorovaikutukset, joista on aiempaa tietoa ja hyviä syitä ottaa se huomioon mallissa. Yksittäisten tekijöiden eristäminen ja huomioon ottaminen on suhteellisen yksinkertaista. Siksi usein halutaan korostaa enemmän olosuhteita. Sinun ei pitäisi hukata tähän. Mitä enemmän ehtoja, sitä vähemmän luotettava malli tulee ja sitä suurempi on virheen mahdollisuus. Itse mallista, joka sisältää suuren määrän riippumattomia muuttujia, tulee melko vaikeasti tulkittava ja hankala käytännön käytössä.

Yleisidea varianssianalyysistä

Tilastojen varianssianalyysi on tapa saada havainnointituloksia, jotka riippuvat erilaisista samanaikaisista olosuhteista ja arvioida niiden vaikutusta. Ohjattua muuttujaa, joka vastaa menetelmää, jolla vaikutetaan tutkimuskohteeseen ja joka saa tietyn arvon tietyssä ajassa, kutsutaan tekijäksi. Ne voivat olla laadullisia ja määrällisiä. Kvantitatiivisten olosuhteiden tasot saavat tietyn arvon numeerisella asteikolla. Esimerkkejä ovat lämpötila, puristuspaine, aineen määrä. Laadullisia tekijöitä ovat erilaiset aineet, erilaiset teknologiset menetelmät, laitteet, täyteaineet. Niiden tasot vastaavat nimien asteikkoa.

Laatuun kuuluu myös pakkausmateriaalin tyyppi, annosmuodon säilytysolosuhteet. On myös järkevää ottaa mukaan raaka-aineiden jauhatusaste, rakeiden fraktiokoostumus, joilla on määrällinen arvo, mutta joita on vaikea säädellä, jos käytetään kvantitatiivista asteikkoa. Laatutekijöiden lukumäärä riippuu annosmuodon tyypistä sekä lääkeaineiden fysikaalisista ja teknologisista ominaisuuksista. Esimerkiksi tabletteja voidaan saada kiteisistä aineista suoraan puristamalla. Tässä tapauksessa riittää liuku- ja voiteluaineiden valinta.

Esimerkkejä eri tyyppisten annosmuotojen laatutekijöistä

  • Tinktuurat. Uuttoaineen koostumus, uuttolaitteen tyyppi, raaka-aineen valmistusmenetelmä, valmistusmenetelmä, suodatusmenetelmä.
  • Uutteet (nestemäiset, paksut, kuivat). Uuttoaineen koostumus, uuttomenetelmä, asennuksen tyyppi, uuttoaineen ja painolastiaineiden poistomenetelmä.
  • Tabletit. Apuaineiden, täyteaineiden, hajotusaineiden, sideaineiden, voiteluaineiden ja voiteluaineiden koostumus. Tablettien hankintamenetelmä, teknisten laitteiden tyyppi. Kuoren tyyppi ja sen komponentit, kalvonmuodostajat, pigmentit, värit, pehmittimet, liuottimet.
  • injektioliuokset. Liuottimen tyyppi, suodatusmenetelmä, stabilointi- ja säilöntäaineiden luonne, sterilointiolosuhteet, ampullien täyttötapa.
  • Peräpuikot. Peräpuikkopohjan koostumus, peräpuikkojen, täyteaineiden, pakkausten hankintamenetelmä.
  • Voiteet. Pohjan koostumus, rakenneosat, voiteen valmistusmenetelmä, laitetyyppi, pakkaus.
  • Kapselit. Kuorimateriaalin tyyppi, kapselien valmistusmenetelmä, pehmittimen tyyppi, säilöntäaine, väriaine.
  • Liniments. Valmistusmenetelmä, koostumus, laitetyyppi, emulgointiaineen tyyppi.
  • Jousitukset. Liuottimen tyyppi, stabilointiaineen tyyppi, dispersiomenetelmä.

Esimerkkejä tablettien valmistusprosessissa tutkituista laatutekijöistä ja niiden tasoista

  • Leivinjauhe. Perunatärkkelys, valkoinen savi, natriumbikarbonaatin ja sitruunahapon seos, emäksinen magnesiumkarbonaatti.
  • sitova ratkaisu. Vesi, tärkkelystahna, sokerisiirappi, metyyliselluloosaliuos,aliuos, polyvinyylipyrrolidoniliuos, polyvinyylialkoholiliuos.
  • liukuva aine. Aerosil, tärkkelys, talkki.
  • Täyteaine. Sokeri, glukoosi, laktoosi, natriumkloridi, kalsiumfosfaatti.
  • Voiteluaine. Steariinihappo, polyetyleeniglykoli, parafiini.

Hajautusanalyysin mallit valtion kilpailukykytason tutkimuksessa

Yksi tärkeimmistä valtion tilan arviointikriteereistä, jolla arvioidaan sen hyvinvoinnin ja sosioekonomisen kehityksen tasoa, on kilpailukyky, eli joukko kansantaloudelle ominaisia ​​ominaisuuksia, jotka määräävät valtion kyvyn. valtio kilpailemaan muiden maiden kanssa. Valtion paikan ja roolin määrittämisen jälkeen on mahdollista luoda selkeä strategia taloudellisen turvallisuuden takaamiseksi kansainvälisessä mittakaavassa, koska se on avain myönteisiin suhteisiin Venäjän ja kaikkien maailmanmarkkinoiden toimijoiden: sijoittajien välillä. , velkojat, osavaltioiden hallitukset.

Valtioiden kilpailukyvyn vertailua varten maat luokitellaan monimutkaisten indeksien avulla, jotka sisältävät erilaisia ​​painotettuja indikaattoreita. Nämä indeksit perustuvat avaintekijöihin, jotka vaikuttavat taloudelliseen, poliittiseen jne. tilanteeseen. Valtion kilpailukyvyn tutkimiseen tarkoitettu mallikokonaisuus mahdollistaa moniulotteisen tilastollisen analyysin menetelmien käytön (etenkin tämä on varianssianalyysi (tilastot), ekonometrinen mallinnus, päätöksenteko) ja sisältää seuraavat päävaiheet:

  1. Indikaattori-indikaattorijärjestelmän muodostaminen.
  2. Valtion kilpailukyvyn tunnuslukujen arviointi ja ennustaminen.
  3. Valtioiden kilpailukyvyn indikaattoreiden-indikaattoreiden vertailu.

Ja nyt tarkastellaan tämän kompleksin kunkin vaiheen mallien sisältöä.

Ensimmäisessä vaiheessa asiantuntijatutkimuksen menetelmiä käyttäen muodostetaan kohtuullinen joukko taloudellisia indikaattoreita-indikaattoreita valtion kilpailukyvyn arvioimiseksi ottaen huomioon sen kehityksen erityispiirteet kansainvälisten arvioiden ja tilastoosastojen tietojen perusteella, jotka kuvastavat järjestelmän tilaa. kokonaisuutena ja sen prosesseja. Näiden indikaattoreiden valintaa perustelee tarve valita ne, jotka käytännössä mahdollistavat täydellisesti valtion tason, investointien houkuttelevuuden ja olemassa olevien mahdollisten ja todellisten uhkien suhteellisen paikallistamisen mahdollisuuden.

Kansainvälisten luokitusjärjestelmien tärkeimmät indikaattorit-indikaattorit ovat indeksit:

  1. Global Competitiveness (GCC).
  2. Taloudellinen vapaus (IES).
  3. Ihmisen kehitys (HDI).
  4. Käsitykset korruptiosta (CPI).
  5. Sisäiset ja ulkoiset uhat (IVZZ).
  6. Kansainvälisen vaikutuksen mahdollisuus (IPIP).

Toinen vaihe säätelee valtion kilpailukykyä mittaavien tunnuslukujen arvioinnista ja ennustamisesta kansainvälisten luokitusten mukaan tutkituille 139 maailman valtiolle.

Kolmas vaihe tarjoaa valtioiden kilpailukyvyn edellytysten vertailun käyttämällä korrelaatio- ja regressioanalyysimenetelmiä.

Tutkimuksen tulosten avulla on mahdollista määrittää prosessien luonne yleisesti ja yksittäisten valtion kilpailukyvyn komponenttien osalta; testaa hypoteesia tekijöiden vaikutuksesta ja niiden suhteesta sopivalla merkitsevyystasolla.

Ehdotetun mallisarjan käyttöönoton avulla voidaan arvioida valtioiden kilpailukykytason ja investointien houkuttelevuuden nykytilannetta, mutta myös analysoida johtamisen puutteita, estää virheellisiä päätöksiä ja ehkäistä kriisin kehittymistä. osavaltiossa.

Varianssianalyysi on tilastollinen menetelmä tekijä- ja suoritusominaisuuksien välisen suhteen arvioimiseksi eri ryhmissä, jotka valitaan satunnaisesti ominaisuuksien arvojen erojen (diversiteetti) määrittämisen perusteella. Varianssianalyysi perustuu tutkittavan perusjoukon kaikkien yksiköiden aritmeettisesta keskiarvosta poikkeamien analyysiin. Poikkeamien mittana otetaan dispersio (B) - poikkeamien keskimääräinen neliö. Tekijämääritteen (tekijän) vaikutuksesta aiheutuvia poikkeamia verrataan satunnaisten olosuhteiden aiheuttamien poikkeamien suuruuteen. Jos tekijä-attribuutin aiheuttamat poikkeamat ovat merkittävämpiä kuin satunnaiset poikkeamat, tekijällä katsotaan olevan merkittävä vaikutus tuloksena olevaan attribuuttiin.

Laskemaan kunkin vaihtoehdon poikkeamaarvon (kunkin rekisteröidyn attribuutin numeerisen arvon) varianssi aritmeettisesta keskiarvosta neliöitynä. Näin pääset eroon negatiivisista merkeistä. Sitten nämä poikkeamat (erot) lasketaan yhteen ja jaetaan havaintojen lukumäärällä, ts. keskimääräiset poikkeamat. Näin saadaan dispersioarvot.

Tärkeä metodologinen arvo varianssianalyysin soveltamisessa on otoksen oikea muodostus. Valikoivia ryhmiä voidaan tavoitteesta ja tavoitteista riippuen muodostaa satunnaisesti toisistaan ​​riippumatta (vertailu- ja koeryhmiä tutkimaan jotakin indikaattoria, esimerkiksi korkean verenpaineen vaikutusta aivohalvauksen kehittymiseen). Tällaisia ​​näytteitä kutsutaan itsenäisiksi.

Usein tekijöille altistumisen tuloksia tutkitaan samassa näyteryhmässä (esimerkiksi samoilla potilailla) ennen altistumista ja sen jälkeen (hoito, ehkäisy, kuntoutustoimenpiteet), tällaisia ​​näytteitä kutsutaan riippuviksi.

Varianssianalyysiä, jossa yhden tekijän vaikutusta tarkistetaan, kutsutaan yksitekijäanalyysiksi (yksimuuttujaanalyysiksi). Kun tutkitaan useamman kuin yhden tekijän vaikutusta, käytetään monimuuttujavarianssianalyysiä (monimuuttujaanalyysiä).

Tekijämerkit ovat niitä merkkejä, jotka vaikuttavat tutkittavaan ilmiöön.

Tehokkaat ominaisuudet ovat ominaisuuksia, jotka muuttuvat tekijäominaisuuksien vaikutuksesta.

Varianssianalyysin käyttöehdot:

Tutkimuksen tehtävänä on määrittää yhden (enintään 3) tekijän vaikutuksen voimakkuus tulokseen tai eri tekijöiden (sukupuoli ja ikä, fyysinen aktiivisuus ja ravitsemus jne.) yhteisvaikutuksen vahvuus.

Tutkittavien tekijöiden tulee olla riippumattomia (ei-liittyviä) toisiinsa. Ei esimerkiksi voida tutkia työkokemuksen ja lasten iän, pituuden ja painon jne. yhteisvaikutusta. väestön esiintyvyydestä.

Ryhmien valinta tutkimukseen tehdään satunnaisesti (satunnaisvalinta). Dispersiokompleksin järjestämistä vaihtoehtojen satunnaisen valinnan periaatteen toteuttamiseksi kutsutaan satunnaistukseksi (käännettynä englannista - random), ts. valittu satunnaisesti.

Sekä määrällisiä että laadullisia (attribuutio) ominaisuuksia voidaan käyttää.

Yksisuuntaista varianssianalyysiä suoritettaessa suositellaan (tarpeellinen ehto hakemukselle):

1. Analysoitujen ryhmien jakauman normaalisuus tai näyteryhmien vastaavuus normaalijakauman omaaviin yleisiin populaatioihin.

2. Riippumattomuus (ei-yhteydet) havaintojen jakautumisesta ryhmiin.

3. Havaintojen esiintymistiheys (toistuminen).

Ensin muotoillaan nollahypoteesi, eli oletetaan, että tutkittavat tekijät eivät vaikuta tuloksena olevan attribuutin arvoihin ja tuloksena olevat erot ovat satunnaisia.

Sitten määritetään, mikä on todennäköisyys saada havaitut (tai vahvemmat) erot edellyttäen, että nollahypoteesi on totta.

Jos tämä todennäköisyys on pieni, hylkäämme nollahypoteesin ja päätämme, että tutkimuksen tulokset ovat tilastollisesti merkitseviä. Tämä ei vielä tarkoita, että tutkittujen tekijöiden vaikutus olisi todistettu (kyse on ensisijaisesti tutkimuksen suunnittelusta), mutta on silti epätodennäköistä, että tulos johtuu sattumasta.

Kun kaikki varianssianalyysin soveltamisen ehdot täyttyvät, kokonaisvarianssin hajotelma näyttää matemaattisesti tältä:

Dotot. = Dfact + D lepo.,

Dotot. - havaittujen arvojen (muunnelman) kokonaisvarianssi, jolle on tunnusomaista muunnelman leviäminen kokonaiskeskiarvosta. Mittaa piirteen vaihtelua koko populaatiossa kaikkien tämän vaihtelun aiheuttaneiden tekijöiden vaikutuksesta. Yleinen monimuotoisuus koostuu ryhmien välisestä ja ryhmän sisäisestä;

Dfact - faktoriaalinen (ryhmien välinen) dispersio, jolle on tunnusomaista kunkin ryhmän keskiarvojen ero ja se riippuu tutkitun tekijän vaikutuksesta, jonka mukaan jokainen ryhmä erotetaan. Esimerkiksi keuhkokuumeen kliinisen kulun eri etiologisten tekijöiden ryhmissä käytetyn vuodepäivän keskimääräinen taso ei ole sama - havaitaan ryhmien välistä monimuotoisuutta.

D lepo. - jäännösvarianssi (ryhmän sisäinen) varianssi, joka kuvaa variantin hajoamista ryhmien sisällä. Heijastaa satunnaista vaihtelua, ts. osa vaihtelusta, joka tapahtuu määrittelemättömien tekijöiden vaikutuksesta ja joka ei riipu piirteestä - ryhmittelyn taustalla olevasta tekijästä. Tutkittavan ominaisuuden vaihtelu riippuu joidenkin huomioimattomien satunnaisten tekijöiden vaikutuksen voimakkuudesta, sekä järjestäytyneisiin (tutkijan antamiin) että satunnaisiin (tuntemattomiin) tekijöihin.

Siksi kokonaisvariaatio (dispersio) koostuu järjestäytyneiden (annettujen) tekijöiden aiheuttamasta vaihtelusta, joita kutsutaan tekijävariaatioiksi ja järjestäytymättömiksi tekijöiksi, ts. jäännösvaihtelu (satunnainen, tuntematon).

Jos otoskoko on n, otosvarianssi lasketaan otoksen keskiarvon neliöityjen poikkeamien summana jaettuna n-1:llä (näytteen koko miinus yksi). Siten kiinteällä otoskoolla n varianssi on neliöiden summan (poikkeamien) funktio, jota kutsutaan lyhyyden vuoksi SS:ksi (englannin sanasta Sum of Squares - Sum of Squares). Jäljempänä jätämme usein pois sanan "selektiivinen" tietäen varsin hyvin, että harkitsemme otosvarianssia tai varianssin arviota. Varianssianalyysi perustuu varianssin jakamiseen osiin tai komponentteihin. Harkitse seuraavaa tietojoukkoa:

Kahden ryhmän keskiarvot ovat merkittävästi erilaiset (2 ja 6). Kunkin ryhmän sisällä olevien neliöityjen poikkeamien summa on 2. Kun ne lasketaan yhteen, saadaan 4. Jos nyt toistamme nämä laskelmat ottamatta huomioon ryhmän jäsenyyttä, eli jos laskemme SS:n näiden kahden otoksen kokonaiskeskiarvon perusteella, saamme arvon 28. Toisin sanoen ryhmän sisäiseen vaihteluun perustuva varianssi (summaneliöt) johtaa paljon pienempiin arvoihin kuin kokonaisvaihtelun perusteella lasketut (suhteessa kokonaiskeskiarvoon). Syynä tähän on ilmeisesti merkittävä ero keskiarvojen välillä, ja tämä keskiarvojen välinen ero selittää olemassa olevan neliösumman välisen eron.

SS St. St. NEITI F p
vaikutus 24.0 24.0 24.0 .008
Virhe 4.0 1.0

Kuten taulukosta nähdään, neliöiden kokonaissumma SS = 28 on jaettu komponenteiksi: ryhmän sisäisestä vaihtelusta johtuva neliösumma (2+2=4; katso taulukon toinen rivi) ja neliöt johtuen ryhmien keskiarvojen eroista (28-(2+ 2)=24; katso taulukon ensimmäinen rivi). Huomaa, että MS tässä taulukossa on keskineliö, joka on yhtä suuri kuin SS jaettuna vapausasteiden lukumäärällä (stdf).

Yllä olevassa yksinkertaisessa esimerkissä voit välittömästi laskea t-testin riippumattomille näytteille. Saadut tulokset ovat tietysti yhtäpitäviä varianssianalyysin tulosten kanssa.

Tilanteet, joissa jokin ilmiö kuvataan kokonaan yhdellä muuttujalla, ovat kuitenkin erittäin harvinaisia. Jos esimerkiksi yritämme oppia kasvattamaan suuria tomaatteja, meidän tulee ottaa huomioon kasvien geneettiseen rakenteeseen, maaperän tyyppiin, valoon, lämpötilaan jne. liittyvät tekijät. Siten, kun suoritat tyypillistä koetta, sinun on käsiteltävä useita tekijöitä. Pääsyy siihen, miksi ANOVA:n käyttäminen on parempi kuin kahden eri tekijätasolla olevan näytteen vertaaminen uudelleen t-testisarjoja käyttämällä, on se, että ANOVA on huomattavasti tehokkaampi ja pienille näytteille informatiivisempi.

Oletetaan, että yllä käsiteltyyn kahden otoksen analyysiesimerkiksi lisäämme toisen tekijän, kuten sukupuolen. Olkoon jokaisessa ryhmässä nyt 3 miestä ja 3 naista. Tämän kokeilun suunnitelma voidaan esittää taulukon muodossa:

Ennen kuin teet laskelmia, voit nähdä, että tässä esimerkissä kokonaisvarianssilla on vähintään kolme lähdettä:

1) satunnainen virhe (ryhmän sisäinen varianssi),

2) koeryhmään kuulumiseen liittyvä vaihtelu

3) havaintokohteiden sukupuolesta johtuva vaihtelu.

Huomaa, että on toinenkin mahdollinen vaihtelun lähde - tekijöiden vuorovaikutus, josta keskustelemme myöhemmin). Mitä tapahtuu, jos emme sisällytä sukupuolta tekijänä analyysiimme ja laskemme tavanomaisen t-testin? Jos lasketaan neliösummat huomiotta sukupuoli (eli yhdistetään eri sukupuolta olevat objektit yhdeksi ryhmäksi laskettaessa ryhmän sisäistä varianssia ja saadaan siten kunkin ryhmän neliösummaksi SS = 10 ja neliöiden kokonaissummaksi SS = 10+10 = 20), saamme suuremman ryhmän sisäisen varianssin kuin tarkemmalla analyysillä lisäalaryhmittelyllä sukupuolen mukaan (tässä tapauksessa ryhmän sisäinen keskiarvo on 2 ja ryhmän sisäinen neliöiden kokonaissumma on yhtä suuri kuin SS = 2+2 +2+2 = 8).

Joten, kun otettiin käyttöön lisätekijä: sukupuoli, jäännösvarianssi pieneni. Tämä johtuu siitä, että miesten keskiarvo on pienempi kuin naisten keskiarvo, ja tämä ero keskiarvoissa lisää yleistä ryhmän sisäistä vaihtelua, jos sukupuolta ei oteta huomioon. Virhevarianssin hallinta lisää testin herkkyyttä (tehoa).

Tämä esimerkki osoittaa toisen varianssianalyysin edun verrattuna tavalliseen kahden otoksen t-testiin. Varianssianalyysin avulla voit tutkia jokaista tekijää ohjaamalla muiden tekijöiden arvoja. Tämä on itse asiassa tärkein syy sen suurempaan tilastolliseen tehoon (merkittävien tulosten saamiseksi tarvitaan pienempiä otoskokoja). Tästä syystä varianssianalyysi, jopa pienillä näytteillä, antaa tilastollisesti merkitsevämpiä tuloksia kuin yksinkertainen t-testi.

) on suunniteltu vertaamaan vain kahta populaatiota. Sitä käytetään kuitenkin usein väärin useamman ryhmän parittaiseen vertailuun (kuva 1), mikä aiheuttaa ns. useiden vertailujen vaikutus(Englanti) useita vertailuja; Glantz 1999, s. 101-104). Puhumme tästä vaikutuksesta ja kuinka käsitellä sitä myöhemmin. Tässä postauksessa kerron periaatteet yksimuuttujavarianssianalyysi juuri suunniteltu samanaikaisesti kahden tai useamman ryhmän keskiarvojen vertailu. ANOVA:n periaatteet an analyysi o f va riance ANOVA) kehitettiin 1920-luvulla. Sir Ronald Aylmer Fisher Ronald Aylmer Fisher) - "nero, joka melkein yksin loi perustan nykyaikaiselle tilastolle" (Hald 1998).

Voi herää kysymys: miksi vertailumenetelmää käytetään keskikokoinen arvoja kutsutaan hajaantuva analyysi? Asia on siinä, että keskiarvojen eroa määritettäessä itse asiassa vertaamme analysoitujen populaatioiden varianssia. Ensimmäiset asiat kuitenkin ensin...

Ongelman muotoilu

Alla oleva esimerkki on otettu kirjasta Maindonald & Ruskea(2010). Painotiedot ovat saatavilla tomaateista (koko kasvi; paino , kg), joita on kasvatettu 2 kuukautta kolmessa eri koeolosuhteissa (trt , alkaen hoitoon) - veden päällä (vedessä), ympäristössä, jossa on lisätty lannoitetta (ravinnetta), sekä ympäristössä, johon on lisätty lannoitetta ja rikkakasvien torjunta-ainetta 2,4-D (ravinne + 24D):

# Luo taulukko tiedoilla: tomaatti<- data.frame (weight= c (1.5 , 1.9 , 1.3 , 1.5 , 2.4 , 1.5 , # water 1.5 , 1.2 , 1.2 , 2.1 , 2.9 , 1.6 , # nutrient 1.9 , 1.6 , 0.8 , 1.15 , 0.9 , 1.6 ) , # nutrient+24D trt = rep (c ("Water" , "Nutrient" , "Nutrient+24D" ) , c (6 , 6 , 6 ) ) ) # Katso tulos: Painopaino TRT 1 1.50 Vesi 2 1.50 Vesi 3 1.30 Vesi 4 1.50 Vesi 5 2.40 Vesi 6 1.50 Vesi 7 1.50 Ravintoaine 8 1.20 Ravintoaine 9 1.20 Ravintoaine 10 2.10 Ravintoaine 11 2.90 Ravintoaine 12 1.60 Ravintoaine 13 1.90 Ravintoaine + 24D 14 1.60 0,80 Ravintoaine+24D 16 1,15 Ravintoaine+24D 17 0,90 Ravintoaine+24D 18 1,60 Ravintoaine+24D


Muuttuja trt on tekijä, jolla on kolme tasoa. Tulevaisuudessa koeolosuhteiden visuaalista vertailua varten teemme "vesi"-tason perustason (eng. viite), eli taso, johon R vertaa kaikkia muita tasoja. Tämä voidaan tehdä relevel()-funktiolla:


Saatavilla olevien tietojen ominaisuuksien ymmärtämiseksi paremmin visualisoimme ne käyttämällä havaitut erot ryhmien keskiarvojen välillä ovat merkityksettömiä ja johtuvat satunnaisten tekijöiden vaikutuksesta (eli itse asiassa kaikki saadut kasvien painomittaukset ovat peräisin yhdestä normaalisti jakautuneesta yleispopulaatiosta). :

Korostamme vielä kerran, että tarkasteltu esimerkki vastaa tapausta yksitekijä varianssianalyysi: tutkimme yhden tekijän - kasvuolosuhteet (kolmella tasolla - Vesi , Ravinne ja Ravinne + 24D ) vaikutusta meitä kiinnostavaan vastemuuttujaan - kasvien painoon.

Valitettavasti tutkijalla ei ole lähes koskaan mahdollisuutta tutkia koko väestöä. Kuinka voimme sitten tietää, onko yllä oleva nollahypoteesi totta, kun otetaan huomioon vain näytetiedot? Voimme muotoilla tämän kysymyksen toisin: Mikä on todennäköisyys saada havaitut erot ryhmien keskiarvojen välillä ottamalla satunnaisotoksia yhdestä normaalijakaumasta populaatiosta? Vastataksemme tähän kysymykseen tarvitsemme tilastollisen testin, joka luonnehtisi kvantitatiivisesti vertailuryhmien välisten erojen suuruutta.