Analiza factorială și de dispersie în Excel cu automatizare de calcul. Analiza unidirecțională a varianței

Pentru a analiza variabilitatea unei trăsături sub influența variabilelor controlate se folosește metoda dispersiei.

Pentru a studia relația dintre valori - metoda factorială. Să luăm în considerare instrumentele analitice mai detaliat: metode factoriale, de dispersie și de dispersie cu doi factori pentru evaluarea variabilității.

ANOVA în Excel

Condițional, scopul metodei de dispersie poate fi formulat după cum urmează: a izola din variabilitatea totală a parametrului 3 variabilitatea particulară:

  • 1 - determinată de acţiunea fiecăreia dintre valorile studiate;
  • 2 - dictate de relaţia dintre valorile studiate;
  • 3 - aleatoriu, dictat de toate circumstanțele nesocotite.

În Microsoft Excel, analiza varianței poate fi efectuată folosind instrumentul „Analiza datelor” (fila „Date” - „Analiză”). Acesta este un supliment pentru foi de calcul. Dacă programul de completare nu este disponibil, trebuie să deschideți „Opțiuni Excel” și să activați setarea pentru analiză.

Lucrul începe cu proiectarea mesei. Reguli:

  1. Fiecare coloană ar trebui să conțină valorile unui factor studiat.
  2. Aranjați coloanele în ordine crescătoare/descrescătoare a valorii parametrului studiat.

Luați în considerare analiza varianței în Excel folosind un exemplu.

Psihologul companiei a analizat folosind o tehnică specială strategia comportamentului angajaților într-o situație conflictuală. Se presupune că comportamentul este influențat de nivelul de studii (1 - gimnaziu, 2 - gimnaziu specializat, 3 - studii superioare).

Introduceți datele într-o foaie de calcul Excel:


Parametrul semnificativ este umplut cu culoare galbenă. Deoarece valoarea P între grupuri este mai mare decât 1, testul lui Fisher nu poate fi considerat semnificativ. În consecință, comportamentul într-o situație conflictuală nu depinde de nivelul de educație.



Analiza factorială în Excel: un exemplu

Analiza factorială este o analiză multivariată a relațiilor dintre valorile variabilelor. Folosind această metodă, puteți rezolva cele mai importante sarcini:

  • descrieți cuprinzător obiectul măsurat (mai mult, cu capacitate, compact);
  • identificarea valorilor variabilelor ascunse care determină prezența corelațiilor statistice liniare;
  • clasificarea variabilelor (determinarea relației dintre ele);
  • reduce numărul de variabile necesare.

Luați în considerare exemplul analizei factoriale. Să presupunem că cunoaștem vânzările oricăror bunuri din ultimele 4 luni. Este necesar să se analizeze ce articole sunt solicitate și care nu.



Acum puteți vedea clar care vânzări de produse dau creșterea principală.

Analiza bidirecțională a varianței în Excel

Arată modul în care doi factori afectează modificarea valorii unei variabile aleatoare. Luați în considerare analiza bidirecțională a varianței în Excel folosind un exemplu.

Sarcină. Un grup de bărbați și femei au fost prezentate cu sunete de diferite volume: 1 - 10 dB, 2 - 30 dB, 3 - 50 dB. Timpul de răspuns a fost înregistrat în milisecunde. Este necesar să se determine dacă genul afectează răspunsul; Afectează zgomotul răspunsul?

Exercițiu . Elevii din anul I au fost chestionați pentru a identifica activitățile cărora își dedică timpul liber. Verificați dacă distribuția preferințelor verbale și non-verbale ale elevilor diferă.

Decizie efectuat cu ajutorul unui calculator.
Găsirea mediilor de grup:

NP 1P 2
1 12 17
2 18 19
3 23 25
4 10 7
5 15 17
x cf 15.6 17

Să notăm p - numărul de niveluri ale factorului (p=2). Numărul de măsurători la fiecare nivel este același și egal cu q=5.
Ultimul rând conține mediile grupului pentru fiecare nivel al factorului.
Media generală poate fi obținută ca medie aritmetică a grupului:
(1)
Distribuția mediilor de grup a procentului de eșec în raport cu media totală este afectată atât de modificările nivelului factorului considerat, cât și de factori aleatori.
Pentru a ține cont de influența acestui factor, varianța totală a eșantionului este împărțită în două părți, prima fiind numită factorial S 2 f, iar a doua - restul S 2 rezidual.
Pentru a lua în considerare aceste componente, se calculează mai întâi suma totală a abaterilor pătrate ale variantei de la media totală:

iar suma factorială a abaterilor pătrate ale mediilor grupului de la media totală, care caracterizează influența acestui factor:

Ultima expresie se obține prin înlocuirea fiecărei variante din expresia Rtot cu media de grup pentru factorul dat.
Suma reziduală a abaterilor pătrate se obține ca diferență:
R rest \u003d R total - R f
Pentru a determina varianța totală a eșantionului, este necesar să se împartă Rtotal la numărul de măsurători pq:

și pentru a obține varianța totală imparțială a eșantionului, această expresie trebuie înmulțită cu pq/(pq-1):

În consecință, pentru varianța eșantionului factorial imparțial:

unde p-1 este numărul de grade de libertate ale varianței eșantionului factorial imparțial.
Pentru a evalua influența factorului asupra modificărilor parametrului luat în considerare, valoarea este calculată:

Deoarece raportul dintre două variații ale eșantionului S 2 f și S 2 rest este distribuit conform legii Fisher-Snedekor, valoarea rezultată f obs este comparată cu valoarea funcției de distribuție

în punctul critic f cr corespunzător nivelului de semnificaţie ales a.
Dacă f obl >f cr, atunci factorul are un impact semnificativ și ar trebui luat în considerare, în caz contrar are un efect nesemnificativ care poate fi neglijat.
Următoarele formule pot fi, de asemenea, utilizate pentru a calcula Robs și Rf:
(4)
(5)
Găsim media generală prin formula (1):
Pentru a calcula Rtot folosind formula (4), alcătuim un tabel cu opțiunea 2 pătrate:
NP 2 1P 2 2
1 144 289
2 324 361
3 529 625
4 100 49
5 225 289
1322 1613

Media generală se calculează prin formula (1):

Rtot = 1322 + 1613 - 5 2 16,3 2 = 278,1
Găsim R f după formula (5):
R f \u003d 5 (15,6 2 + 17 2) - 2 16,3 2 \u003d 4,9
Obținem R rest: R rest \u003d R total - R f \u003d 278,1 - 4,9 \u003d 273,2
Determinăm varianța factorială și reziduală:


Dacă valorile medii ale unei variabile aleatorii calculate pentru eșantioane individuale sunt aceleași, atunci estimările variațiilor factoriale și reziduale sunt estimări imparțiale ale varianței generale și diferă nesemnificativ.
Apoi, o comparație a estimărilor acestor varianțe conform criteriului Fisher ar trebui să arate că nu există niciun motiv pentru a respinge ipoteza nulă despre egalitatea varianțelor factoriale și reziduale.
Estimarea varianței factorilor este mai mică decât estimarea varianței reziduale, astfel încât putem afirma imediat validitatea ipotezei nule despre egalitatea așteptărilor matematice pentru straturile eșantionului.
Cu alte cuvinte, în acest exemplu, factorul Ф nu afectează semnificativ variabila aleatoare.
Să verificăm ipoteza nulă H 0: egalitatea valorilor medii ale lui x.
Găsiți f obl

Pentru nivelul de semnificație α=0,05, numărul de grade de libertate 1 și 8, găsim f cr din tabelul de distribuție Fisher-Snedekor.
f cr (0,05; 1; 8) = 5,32
Datorită faptului că f obs< f кр, нулевую гипотезу о существенном влиянии фактора на результаты экспериментов отклоняем.
Cu alte cuvinte, distribuția preferințelor verbale și non-verbale ale elevilor diferă.

Exercițiu. Fabrica are patru linii pentru producerea plăcilor de căptușire. 10 plăci au fost alese aleatoriu din fiecare linie în timpul schimbului și a fost măsurată grosimea lor (mm). Abaterile de la dimensiunea nominală sunt date în tabel. Se cere la nivelul de semnificație a = 0,05 să se stabilească dependența producției de plăci de înaltă calitate de linia de producție (factor A).

Exercițiu. La nivelul de semnificație a = 0,05, investigați efectul culorii vopselei asupra duratei de viață a acoperirii.

Exemplul #1. Au fost efectuate 13 teste, dintre care 4 au fost la primul nivel al factorului, 4 au fost la al doilea, 3 au fost la al treilea și 2 au fost la al patrulea. Utilizând metoda analizei varianței la un nivel de semnificație de 0,05, se verifică ipoteza nulă despre egalitatea mediilor de grup. Se presupune că eșantioanele sunt luate din populații normale cu aceleași variații. Rezultatele testului sunt prezentate în tabel.

Decizie:
Găsirea mediilor de grup:

NP 1P 2P 3P 4
1 1.38 1.41 1.32 1.31
2 1.38 1.42 1.33 1.33
3 1.42 1.44 1.34 -
4 1.42 1.45 - -
5.6 5.72 3.99 2.64
x cf 1.4 1.43 1.33 1.32

Să notăm p - numărul de niveluri ale factorului (p=4). Numărul de măsurători la fiecare nivel este: 4,4,3,2
Ultimul rând conține mediile grupului pentru fiecare nivel al factorului.
Media generală se calculează prin formula:

Pentru a calcula Stotal folosind formula (4), alcătuim un tabel cu opțiunea 2 pătrate:

NP 2 1P 2 2P 2 3P 2 4
1 1.9 1.99 1.74 1.72
2 1.9 2.02 1.77 1.77
3 2.02 2.07 1.8 -
4 2.02 2.1 - -
7.84 8.18 5.31 3.49

Suma totală a abaterilor pătrate se află prin formula:


Găsim S f prin formula:


Obținem S rest: S rest \u003d S total - S f \u003d 0,0293 - 0,0263 \u003d 0,003
Determinați varianța factorului:

și variația reziduală:

Dacă valorile medii ale unei variabile aleatorii calculate pentru eșantioane individuale sunt aceleași, atunci estimările variațiilor factoriale și reziduale sunt estimări imparțiale ale varianței generale și diferă nesemnificativ.
Apoi, o comparație a estimărilor acestor varianțe conform criteriului Fisher ar trebui să arate că nu există niciun motiv pentru a respinge ipoteza nulă despre egalitatea varianțelor factoriale și reziduale.
Estimarea varianței factoriale este mai mare decât estimarea varianței reziduale, așa că putem afirma imediat că ipoteza nulă despre egalitatea așteptărilor matematice pentru straturile eșantionului nu este adevărată.
Cu alte cuvinte, în acest exemplu, factorul Ф are un impact semnificativ asupra variabilei aleatoare.
Să verificăm ipoteza nulă H 0: egalitatea valorilor medii ale lui x.
Găsiți f obl

Pentru nivelul de semnificație α=0,05, numărul de grade de libertate 3 și 12, găsim f cr din tabelul de distribuție Fisher-Snedekor.
f cr (0,05; 3; 12) = 3,49
Datorită faptului că f obl > f cr, acceptăm ipoteza nulă despre influența semnificativă a factorului asupra rezultatelor experimentelor (respingem ipoteza nulă despre egalitatea mediilor de grup). Cu alte cuvinte, mijloacele grupului în ansamblu diferă semnificativ.

Exemplul #2. Școala are 5 clase a șasea. Psihologul are sarcina de a determina dacă nivelul mediu de anxietate situațională în cursuri este același. Pentru aceasta au fost date în tabel. Verificați nivelul de semnificație α=0,05, ipoteza că anxietatea situațională medie la clase nu diferă.

Exemplul #3. Pentru a studia valoarea lui X, au fost efectuate 4 teste la fiecare dintre cele cinci niveluri ale factorului F. Rezultatele testelor sunt date în tabel. Aflați dacă influența factorului F asupra valorii lui X este semnificativă.Se ia α = 0,05. Se presupune că eșantioanele sunt luate din populații normale cu aceleași variații.

Exemplul #4. Să presupunem că trei grupuri de elevi, câte 10 persoane fiecare, au participat la experimentul pedagogic. Grupele au folosit diferite metode de predare: în prima - tradițională (F 1), în a doua - bazată pe tehnologia computerizată (F 2), în a treia - o metodă care utilizează pe scară largă sarcini pentru munca independentă (F 3). Cunoștințele au fost evaluate pe un sistem de zece puncte.
Se cere prelucrarea datelor obținute la examene și concluzia dacă influența metodei de predare este semnificativă, luând ca nivel de semnificație α=0,05.
Rezultatele examenelor sunt date în tabel, F j - nivelul factorului x ij - evaluarea elevului i al elevului după metoda F j .

Nivelul factorului

Exemplul numărul 5. Sunt prezentate rezultatele testării soiurilor competitive ale culturilor (randament în c.d. ha). Fiecare soi a fost testat în patru parcele. Utilizați metoda de analiză a varianței pentru a studia efectul soiului asupra randamentului. Setați semnificația influenței factorului (ponderea variației intergrupuri în variația totală) și semnificația rezultatelor experimentului la un nivel de semnificație de 0,05.
Randamente în parcelele de testare a soiurilor

varietate Productivitatea pe repetări de c. din ha
1 2 3 4
1
2
3
42,4
52,5
52,3
37,4
50,1
53,0
40,7
53,8
51,4
38,2
50,7
53,6

ANOVA este un set de metode statistice menite să testeze ipoteze despre relația dintre anumite caracteristici și factorii studiați care nu au o descriere cantitativă, precum și să stabilească gradul de influență a factorilor și interacțiunea acestora. În literatura de specialitate, este adesea numit ANOVA (de la numele englezesc Analysis of Variations). Această metodă a fost dezvoltată pentru prima dată de R. Fischer în 1925.

Tipuri și criterii pentru analiza varianței

Această metodă este folosită pentru a investiga relația dintre caracteristicile calitative (nominale) și o variabilă cantitativă (continuă). De fapt, testează ipoteza despre egalitatea mediilor aritmetice a mai multor eșantioane. Astfel, poate fi considerat ca un criteriu parametric pentru compararea centrelor mai multor probe deodată. Dacă utilizați această metodă pentru două eșantioane, atunci rezultatele analizei varianței vor fi identice cu rezultatele testului t Student. Cu toate acestea, spre deosebire de alte criterii, acest studiu vă permite să studiați problema mai detaliat.

Analiza varianței în statistici se bazează pe legea: suma abaterilor pătrate ale eșantionului combinat este egală cu suma pătratelor abaterilor intragrup și suma pătratelor abaterilor intergrup. Pentru studiu, testul Fisher este utilizat pentru a stabili semnificația diferenței dintre variațiile intergrup și intragrup. Totuși, pentru aceasta, premisele necesare sunt normalitatea distribuției și homoscedasticitatea (egalitatea varianțelor) eșantioanelor. Distingeți între analiza unidimensională (cu un singur factor) a varianței și analiza multivariată (multifactorială). Primul ia în considerare dependența valorii studiate de un atribut, al doilea - de multe simultan și, de asemenea, vă permite să identificați relația dintre ele.

Factori

Factorii sunt numiți circumstanțe controlate care afectează rezultatul final. Nivelul sau metoda sa de prelucrare se numeste valoarea care caracterizeaza manifestarea specifica a acestei afectiuni. Aceste cifre sunt de obicei date pe o scară de măsură nominală sau ordinală. Adesea, valorile de ieșire sunt măsurate pe scale cantitative sau ordinale. Apoi se pune problema grupării datelor de ieșire într-o serie de observații care corespund aproximativ acelorași valori numerice. Dacă numărul de grupuri este prea mare, atunci numărul de observații din ele poate fi insuficient pentru a obține rezultate fiabile. Dacă numărul este luat prea mic, acest lucru poate duce la pierderea caracteristicilor esențiale de influență asupra sistemului. Metoda specifică de grupare a datelor depinde de volumul și natura variației valorilor. Numărul și dimensiunea intervalelor în analiza univariată sunt cel mai adesea determinate de principiul intervalelor egale sau de principiul frecvențelor egale.

Sarcini de analiză a dispersiei

Deci, există cazuri când trebuie să comparați două sau mai multe mostre. Atunci este recomandabil să folosiți analiza varianței. Denumirea metodei indică faptul că concluziile se fac pe baza studiului componentelor varianței. Esența studiului este că modificarea generală a indicatorului este împărțită în componente care corespund acțiunii fiecărui factor individual. Luați în considerare o serie de probleme pe care o analiză tipică a varianței le rezolvă.

Exemplul 1

Atelierul are o serie de mașini-unelte - mașini automate care produc o anumită piesă. Dimensiunea fiecărei piese este o valoare aleatorie, care depinde de setările fiecărei mașini și de abaterile aleatorii care apar în timpul procesului de fabricație a pieselor. Este necesar să se determine din măsurătorile dimensiunilor pieselor dacă mașinile sunt montate în același mod.

Exemplul 2

La fabricarea unui aparat electric se folosesc diverse tipuri de hartie izolatoare: condensator, electrice etc. Aparatul poate fi impregnat cu diverse substante: rasina epoxidica, lac, rasina ML-2 etc. Scurgerile pot fi eliminate sub vid la presiune ridicată, atunci când este încălzită. Poate fi impregnat prin imersare în lac, sub un flux continuu de lac etc. Aparatul electric în ansamblu este turnat cu un anumit compus, dintre care există mai multe opțiuni. Indicatorii de calitate sunt rezistența dielectrică a izolației, temperatura de supraîncălzire a înfășurării în modul de funcționare și o serie de altele. În timpul dezvoltării procesului tehnologic de fabricare a dispozitivelor, este necesar să se determine modul în care fiecare dintre factorii enumerați afectează performanța dispozitivului.

Exemplul 3

Depoul de troleibuze deservește mai multe rute de troleibuz. Aceștia operează troleibuze de diferite tipuri, iar 125 de inspectori colectează tarife. Conducerea depozitului este interesată de întrebarea: cum se compară performanța economică a fiecărui controlor (venit) având în vedere diferitele rute, diferitele tipuri de troleibuze? Cum se determină fezabilitatea economică a lansării troleibuzelor de un anumit tip pe o anumită rută? Cum se stabilesc cerințe rezonabile pentru suma de venituri pe care conducătorul o aduce pe fiecare rută în diferite tipuri de troleibuze?

Sarcina alegerii unei metode este de a obține informații maxime cu privire la impactul asupra rezultatului final al fiecărui factor, de a determina caracteristicile numerice ale unui astfel de impact, fiabilitatea acestora la costuri minime și în cel mai scurt timp posibil. Metodele de analiză a dispersiei permit rezolvarea unor astfel de probleme.

Analiza univariată

Studiul își propune să evalueze amploarea impactului unui anumit caz asupra revizuirii analizate. O altă sarcină a analizei univariate poate fi compararea a două sau mai multe circumstanțe între ele pentru a determina diferența în influența lor asupra reamintirii. Dacă ipoteza nulă este respinsă, atunci următorul pas este cuantificarea și construirea intervalelor de încredere pentru caracteristicile obținute. În cazul în care ipoteza nulă nu poate fi respinsă, ea este de obicei acceptată și se face o concluzie despre natura influenței.

Analiza unidirecțională a varianței poate deveni un analog neparametric al metodei de rang Kruskal-Wallis. A fost dezvoltat de matematicianul american William Kruskal și economistul Wilson Wallis în 1952. Acest test are scopul de a testa ipoteza nulă conform căreia efectele influenței asupra eșantioanelor studiate sunt egale cu valori medii necunoscute, dar egale. În acest caz, numărul de probe trebuie să fie mai mare de două.

Criteriul Jonkhier (Jonkhier-Terpstra) a fost propus independent de matematicianul olandez T. J. Terpstrom în 1952 și de psihologul britanic E. R. Jonkhier în 1954. Este folosit atunci când se știe dinainte că grupurile disponibile de rezultate sunt ordonate după o creștere a influența factorului studiat, care este măsurat pe o scară ordinală.

M - criteriul Bartlett, propus de statisticianul britanic Maurice Stevenson Bartlett în 1937, este folosit pentru a testa ipoteza nulă despre egalitatea varianțelor mai multor populații generale normale din care sunt prelevate eșantioanele studiate, în cazul general având dimensiuni diferite. (numărul fiecărei probe trebuie să fie de cel puțin patru ).

G este testul Cochran, care a fost descoperit de americanul William Gemmel Cochran în 1941. Este folosit pentru a testa ipoteza nulă despre egalitatea varianțelor populațiilor normale pentru eșantioane independente de dimensiuni egale.

Testul Levene neparametric, propus de matematicianul american Howard Levene în 1960, este o alternativă la testul Bartlett în condițiile în care nu există certitudinea că eșantioanele studiate urmează o distribuție normală.

În 1974, statisticienii americani Morton B. Brown și Alan B. Forsythe au propus un test (testul Brown-Forsyth), care este oarecum diferit de testul Levene.

Analiză în două sensuri

Analiza bidirecțională a varianței este utilizată pentru eșantioane distribuite normal legate. În practică, sunt adesea folosite tabele complexe ale acestei metode, în special cele în care fiecare celulă conține un set de date (măsurători repetate) corespunzătoare unor valori de nivel fixe. Dacă nu sunt îndeplinite ipotezele necesare pentru aplicarea analizei bidirecționale a varianței, atunci se folosește testul de rang neparametric al lui Friedman (Friedman, Kendall și Smith), elaborat de economistul american Milton Friedman la sfârșitul anului 1930. Acest criteriu nu depinde de tipul de distribuție.

Se presupune doar că distribuția cantităților este aceeași și continuă și că ele însele sunt independente unele de altele. La testarea ipotezei nule, datele de ieșire sunt prezentate sub forma unei matrice dreptunghiulare, în care rândurile corespund nivelurilor factorului B, iar coloanele corespund nivelurilor A. Fiecare celulă a tabelului (blocului) poate fi rezultat al măsurătorilor parametrilor pe un obiect sau pe un grup de obiecte cu valori constante ale nivelurilor ambilor factori. În acest caz, datele corespunzătoare sunt prezentate ca valori medii ale unui anumit parametru pentru toate măsurătorile sau obiectele eșantionului studiat. Pentru a aplica criteriul de ieșire, este necesar să treceți de la rezultatele directe ale măsurătorilor la rangul lor. Clasamentul se realizează pentru fiecare rând separat, adică valorile sunt ordonate pentru fiecare valoare fixă.

Testul Page (L-test), propus de statisticianul american E. B. Page în 1963, este conceput pentru a testa ipoteza nulă. Pentru mostre mari, se utilizează aproximarea Page. Ele, supuse realității ipotezelor nule corespunzătoare, se supun distribuției normale standard. În cazul în care rândurile tabelului sursă au aceleași valori, este necesar să se utilizeze rangurile medii. În acest caz, acuratețea concluziilor va fi cu atât mai proastă, cu atât numărul de astfel de coincidențe va fi mai mare.

Q - Criteriul lui Cochran, propus de V. Cochran în 1937. Este folosit în cazurile în care grupuri de subiecți omogene sunt expuși la mai mult de două influențe și pentru care sunt posibile două opțiuni pentru recenzii - condiționat negativ (0) și condiționat pozitiv (1). ). Ipoteza nulă constă în egalitatea efectelor de influență. Analiza bidirecțională a varianței face posibilă determinarea existenței efectelor de prelucrare, dar nu face posibilă determinarea pentru ce coloane există acest efect. La rezolvarea acestei probleme se folosește metoda ecuațiilor Scheffe multiple pentru probe cuplate.

Analiza multivariată

Problema analizei multivariate a varianței apare atunci când este necesar să se determine influența a două sau mai multe condiții asupra unei anumite variabile aleatoare. Studiul prevede prezența unei variabile aleatoare dependente, măsurată pe o scară de diferență sau rapoarte, și a mai multor variabile independente, fiecare dintre acestea fiind exprimată pe o scară de nume sau într-o scară de rang. Analiza de dispersie a datelor este o ramură destul de dezvoltată a statisticii matematice, care are o mulțime de opțiuni. Conceptul de studiu este comun atât pentru studiile univariate, cât și pentru cele multivariate. Esența sa constă în faptul că varianța totală este împărțită în componente, ceea ce corespunde unei anumite grupări de date. Fiecare grupare de date are propriul său model. Aici vom lua în considerare doar principalele prevederi necesare pentru înțelegerea și utilizarea practică a variantelor sale cele mai utilizate.

Analiza factorială a varianței necesită o atenție deosebită colectării și prezentării datelor de intrare și în special interpretării rezultatelor. Spre deosebire de factorul unic, ale cărui rezultate pot fi plasate condiționat într-o anumită secvență, rezultatele celor doi factori necesită o prezentare mai complexă. O situație și mai dificilă apare atunci când sunt trei, patru sau mai multe circumstanțe. Din acest motiv, modelul include rareori mai mult de trei (patru) condiții. Un exemplu ar fi apariția rezonanței la o anumită valoare a capacității și inductanței cercului electric; manifestarea unei reacții chimice cu un anumit set de elemente din care este construit sistemul; apariția unor efecte anormale în sisteme complexe într-o anumită coincidență de circumstanțe. Prezența interacțiunii poate schimba radical modelul sistemului și poate duce uneori la o regândire a naturii fenomenelor cu care se confruntă experimentatorul.

Analiza multivariată a varianței cu experimente repetate

Datele de măsurare pot fi adesea grupate nu în doi, ci după mai mulți factori. Deci, dacă luăm în considerare analiza de dispersie a duratei de viață a anvelopelor pentru roțile de troleibuz, ținând cont de circumstanțe (producător și traseul pe care sunt utilizate anvelopele), atunci putem evidenția ca o condiție separată sezonul în care se folosesc anvelope (si anume: functionare iarna si vara). Ca urmare, vom avea problema metodei cu trei factori.

În prezența mai multor condiții, abordarea este aceeași ca în analiza bidirecțională. În toate cazurile, modelul încearcă să simplifice. Fenomenul de interacțiune a doi factori nu apare atât de des, iar interacțiunea triplă apare doar în cazuri excepționale. Includeți acele interacțiuni pentru care există informații anterioare și motive întemeiate să le luați în considerare în model. Procesul de izolare a factorilor individuali și luarea în considerare a acestora este relativ simplu. Prin urmare, există adesea dorința de a evidenția mai multe circumstanțe. Nu ar trebui să te lași dus de asta. Cu cât sunt mai multe condiții, cu atât modelul devine mai puțin fiabil și șansa de eroare este mai mare. Modelul în sine, care include un număr mare de variabile independente, devine destul de dificil de interpretat și incomod pentru utilizare practică.

Ideea generală a analizei varianței

Analiza varianței în statistică este o metodă de obținere a rezultatelor observațiilor care depind de diverse circumstanțe concurente și de evaluare a influenței acestora. O variabilă controlată care corespunde metodei de influență asupra obiectului de studiu și dobândește o anumită valoare într-o anumită perioadă de timp se numește factor. Ele pot fi calitative și cantitative. Nivelurile condițiilor cantitative dobândesc o anumită valoare la scară numerică. Exemple sunt temperatura, presiunea de presare, cantitatea de substanță. Factorii calitativi sunt diferite substanțe, diferite metode tehnologice, aparate, materiale de umplutură. Nivelurile lor corespund cu scara numelor.

Calitatea include și tipul de material de ambalare, condițiile de păstrare a formei de dozare. De asemenea, este rațional să se includă și gradul de măcinare a materiilor prime, compoziția fracționată a granulelor, care au o valoare cantitativă, dar sunt greu de reglat, dacă se folosește o scară cantitativă. Numărul de factori de calitate depinde de tipul formei de dozare, precum și de proprietățile fizice și tehnologice ale substanțelor medicinale. De exemplu, tabletele pot fi obținute din substanțe cristaline prin compresie directă. În acest caz, este suficient să se efectueze selecția agenților de alunecare și de lubrifiere.

Exemple de factori de calitate pentru diferite tipuri de forme de dozare

  • Tincturi. Compoziția extractantului, tipul extractorului, metoda de preparare a materiei prime, metoda de producție, metoda de filtrare.
  • Extracte (lichid, gros, uscat). Compoziția extractantului, metoda de extracție, tipul instalației, metoda de îndepărtare a extractantului și a substanțelor de balast.
  • Pastile. Compoziția excipienților, materiale de umplutură, dezintegranți, lianți, lubrifianți și lubrifianți. Metoda de obținere a tabletelor, tipul de echipament tehnologic. Tipul de înveliș și componentele sale, formatori de peliculă, pigmenți, coloranți, plastifianți, solvenți.
  • soluții injectabile. Tipul solventului, metoda de filtrare, natura stabilizatorilor și conservanților, condițiile de sterilizare, metoda de umplere a fiolelor.
  • Supozitoare. Compoziția bazei de supozitoare, metoda de obținere a supozitoarelor, umpluturi, ambalare.
  • Unguente. Compoziția bazei, componentele structurale, metoda de preparare a unguentului, tipul de echipament, ambalajul.
  • Capsule. Tipul materialului învelișului, modalitatea de obținere a capsulelor, tipul de plastifiant, conservant, colorant.
  • Linimente. Mod de producere, compoziție, tip de echipament, tip de emulgator.
  • Suspensii. Tip de solvent, tip de stabilizator, metoda de dispersie.

Exemple de factori de calitate și nivelurile acestora studiate în procesul de fabricație a tabletei

  • Praf de copt. Amidon de cartofi, argilă albă, un amestec de bicarbonat de sodiu cu acid citric, carbonat de magneziu bazic.
  • soluție de legare. Apă, pastă de amidon, sirop de zahăr, soluție de metilceluloză, soluție de hidroxipropil metilceluloză, soluție de polivinilpirolidonă, soluție de alcool polivinilic.
  • substanță de alunecare. Aerosil, amidon, talc.
  • Material de umplutură. Zahăr, glucoză, lactoză, clorură de sodiu, fosfat de calciu.
  • Lubrifiant. Acid stearic, polietilen glicol, parafină.

Modele de analiză a dispersiei în studiul nivelului de competitivitate a statului

Unul dintre cele mai importante criterii de evaluare a stării statului, care este utilizat pentru aprecierea nivelului de bunăstare și dezvoltare socio-economică a acestuia, este competitivitatea, adică un set de proprietăți inerente economiei naționale care determină capacitatea de statul să concureze cu alte țări. După ce a determinat locul și rolul statului pe piața mondială, este posibil să se stabilească o strategie clară pentru asigurarea securității economice la scară internațională, deoarece este cheia relațiilor pozitive dintre Rusia și toți actorii de pe piața mondială: investitorii , creditori, guverne de stat.

Pentru a compara nivelul de competitivitate al statelor, țările sunt clasate folosind indici complecși, care includ diverși indicatori ponderați. Acești indici se bazează pe factori cheie care afectează situația economică, politică etc. Complexul de modele pentru studierea competitivității statului prevede utilizarea metodelor de analiză statistică multidimensională (în special, aceasta este o analiză a varianței (statistică), modelare econometrică, luare a deciziilor) și include următoarele etape principale:

  1. Formarea unui sistem de indicatori-indicatori.
  2. Evaluarea şi prognozarea indicatorilor competitivităţii statului.
  3. Comparația indicatorilor-indicatori ai competitivității statelor.

Și acum să luăm în considerare conținutul modelelor fiecăreia dintre etapele acestui complex.

La prima etapă folosind metode de studiu expert, se formează un set rezonabil de indicatori-indicatori economici pentru evaluarea competitivității statului, ținând cont de specificul dezvoltării acestuia pe baza evaluărilor internaționale și a datelor de la departamentele de statistică, care reflectă starea sistemului în ansamblu și procesele sale. Alegerea acestor indicatori este justificată de necesitatea selectării celor care mai pe deplin, din punct de vedere al practicii, permit determinarea nivelului statului, a atractivității sale investiționale și a posibilității de localizare relativă a amenințărilor potențiale și reale existente.

Principalii indicatori-indicatori ai sistemelor internaționale de rating sunt indicii:

  1. Competitivitate globală (GCC).
  2. Libertatea economică (IES).
  3. Dezvoltarea umană (IDU).
  4. Percepția corupției (IPC).
  5. Amenințări interne și externe (IVZZ).
  6. Potenţial de influenţă internaţională (IPIP).

Faza a doua prevede evaluarea și prognozarea indicatorilor competitivității statului conform ratingurilor internaționale pentru cele 139 de state ale lumii studiate.

A treia etapă prevede o comparație a condițiilor de competitivitate a statelor folosind metodele de corelare și analiză de regresie.

Cu ajutorul rezultatelor studiului, se poate determina natura proceselor în general și pentru componentele individuale ale competitivității statului; testați ipoteza despre influența factorilor și relația lor la nivelul de semnificație corespunzător.

Implementarea setului de modele propus va permite nu numai evaluarea situației actuale a nivelului de competitivitate și atractivitate investițională a statelor, ci și analiza deficiențelor managementului, prevenirea erorilor de decizii greșite și prevenirea dezvoltării unei crize. în statul.

Analiza varianței este o metodă statistică de evaluare a relației dintre factori și caracteristicile de performanță în diferite grupuri, selectate aleatoriu, pe baza determinării diferențelor (diversităţii) în valorile caracteristicilor. Analiza varianței se bazează pe analiza abaterilor tuturor unităților populației studiate de la media aritmetică. Ca măsură a abaterilor, se ia dispersia (B) - pătratul mediu al abaterilor. Abaterile cauzate de influența unui atribut de factor (factor) sunt comparate cu magnitudinea abaterilor cauzate de circumstanțe aleatorii. Dacă abaterile cauzate de atributul factorului sunt mai semnificative decât abaterile aleatorii, atunci factorul este considerat a avea un impact semnificativ asupra atributului rezultat.

Pentru a calcula varianța valorii abaterii fiecărei opțiuni (fiecare valoare numerică înregistrată a atributului) de la media aritmetică, pătrat. Acest lucru va scăpa de semnele negative. Apoi aceste abateri (diferențe) sunt însumate și împărțite la numărul de observații, adică. abaterile medii. Astfel, se obțin valorile de dispersie.

O valoare metodologică importantă pentru aplicarea analizei varianței este formarea corectă a probei. În funcție de scop și obiective, grupurile selective pot fi formate aleatoriu independent unul de celălalt (grupuri de control și experimentale pentru a studia un anumit indicator, de exemplu, efectul hipertensiunii arteriale asupra dezvoltării accidentului vascular cerebral). Astfel de mostre se numesc independente.

Adesea, rezultatele expunerii la factori sunt studiate în același grup de probă (de exemplu, la aceiași pacienți) înainte și după expunere (tratament, prevenire, măsuri de reabilitare), astfel de eșantioane sunt numite dependente.

Analiza varianței, în care se verifică influența unui factor, se numește analiză unifactorială (analiza univariată). Când se studiază influența a mai mult de un factor, se utilizează analiza multivariată a varianței (analiza multivariată).

Semnele factoriale sunt acele semne care afectează fenomenul studiat.

Semnele eficiente sunt acele semne care se modifică sub influența semnelor factorilor.

Condiții de utilizare a analizei varianței:

Sarcina studiului este de a determina puterea influenței unuia (până la 3) factori asupra rezultatului sau de a determina puterea influenței combinate a diferiților factori (sex și vârstă, activitate fizică și nutriție etc.).

Factorii studiați ar trebui să fie independenți (fără legătură) între ei. De exemplu, nu se poate studia efectul combinat al experienței de muncă și al vârstei, înălțimii și greutății copiilor etc. asupra incidenţei populaţiei.

Selecția grupurilor pentru studiu se face în mod aleatoriu (selecție aleatorie). Organizarea unui complex de dispersie cu implementarea principiului selecției aleatoare a opțiunilor se numește randomizare (tradus din engleză - random), adică. alese la întâmplare.

Pot fi utilizate atât caracteristici cantitative, cât și calitative (atributive).

Când se efectuează o analiză unidirecțională a varianței, se recomandă (condiție necesară pentru aplicare):

1. Normalitatea distribuției grupurilor analizate sau corespondența grupurilor de eșantion la populațiile generale cu distribuție normală.

2. Independența (neconectarea) a distribuției observațiilor în grupuri.

3. Prezența frecvenței (recurenței) observațiilor.

În primul rând, se formulează o ipoteză nulă, adică se presupune că factorii studiati nu au niciun efect asupra valorilor atributului rezultat, iar diferențele rezultate sunt aleatorii.

Apoi determinăm care este probabilitatea de a obține diferențele observate (sau mai puternice), cu condiția ca ipoteza nulă să fie adevărată.

Dacă această probabilitate este mică, atunci respingem ipoteza nulă și concluzionăm că rezultatele studiului sunt semnificative statistic. Acest lucru nu înseamnă încă că efectul factorilor studiați a fost dovedit (aceasta este în primul rând o chestiune de planificare a cercetării), dar este încă puțin probabil ca rezultatul să se datoreze întâmplării.

Când sunt îndeplinite toate condițiile pentru aplicarea analizei varianței, descompunerea varianței totale arată matematic astfel:

Dotot. = Dfact + D rest.,

Dotot. - variația totală a valorilor observate (varianta), caracterizată prin răspândirea variantei din media totală. Măsoară variația unei trăsături în întreaga populație sub influența tuturor factorilor care au determinat această variație. Diversitatea generală este alcătuită din intergrup și intragrup;

Dfact - dispersie factorială (intergrup), caracterizată prin diferența de medii în fiecare grup și depinde de influența factorului studiat, în funcție de care se diferențiază fiecare grup. De exemplu, în grupuri de diferiți factori etiologici ai evoluției clinice a pneumoniei, nivelul mediu al zilei petrecute la pat nu este același - se observă diversitatea intergrupurilor.

D odihnă. - varianta reziduala (intragrup), care caracterizeaza dispersia variantei in cadrul grupurilor. Reflectă variații aleatorii, adică parte a variației care apare sub influența unor factori nespecificați și nu depinde de trăsătură - factorul care stă la baza grupării. Variația trăsăturii studiate depinde de puterea influenței unor factori aleatori necontabiliați, atât de factori organizați (dați de cercetător), cât și aleatori (necunoscuti).

Prin urmare, variația totală (dispersia) este compusă din variația cauzată de factori organizați (dați), numiți variație factorială și factori neorganizați, adică. variație reziduală (aleatorie, necunoscută).

Pentru o dimensiune a eșantionului de n, varianța eșantionului este calculată ca suma abaterilor pătrate de la media eșantionului împărțită la n-1 (dimensiunea eșantionului minus unu). Astfel, cu o dimensiune fixă ​​a eșantionului n, varianța este o funcție a sumei pătratelor (abaterilor), notată, pentru concizie, SS (din limba engleză Sum of Squares - Sum of Squares). În cele ce urmează, omitem adesea cuvântul „selectiv”, știind foarte bine că luăm în considerare o varianță eșantion sau o estimare a varianței. Analiza varianței se bazează pe împărțirea varianței în părți sau componente. Luați în considerare următorul set de date:

Mediile celor două grupuri sunt semnificativ diferite (2 și, respectiv, 6). Suma abaterilor pătrate din cadrul fiecărui grup este 2. Adunându-le, obținem 4. Dacă acum repetăm ​​aceste calcule fără a ține cont de apartenența la grup, adică dacă calculăm SS pe baza mediei totale a acestor două eșantioane, obținem o valoare de 28. Cu alte cuvinte, varianța (suma pătratelor) bazată pe variabilitatea în interiorul grupului are ca rezultat valori mult mai mici decât cele calculate pe baza variabilității totale (față de media generală). Motivul pentru aceasta este, evident, diferența semnificativă dintre medii, iar această diferență între medii explică diferența existentă între sumele pătratelor.

SS Sf. Sf. DOMNIȘOARĂ F p
Efect 24.0 24.0 24.0 .008
Greşeală 4.0 1.0

După cum se poate observa din tabel, suma totală a pătratelor SS = 28 este împărțită în componente: suma pătratelor datorată variabilității în interiorul grupului (2+2=4; vezi al doilea rând al tabelului) și suma pătrate din cauza diferenței de medii dintre grupuri (28-(2+ 2)=24; vezi prima linie a tabelului). Rețineți că MS din acest tabel este pătratul mediu egal cu SS împărțit la numărul de grade de libertate (stdf).

În exemplul simplu de mai sus, puteți calcula imediat testul t pentru probe independente. Rezultatele obţinute, desigur, coincid cu rezultatele analizei de varianţă.

Cu toate acestea, situațiile în care un fenomen este complet descris de o variabilă sunt extrem de rare. De exemplu, dacă încercăm să învățăm cum să creștem roșii mari, ar trebui să luăm în considerare factorii legați de structura genetică a plantelor, tipul de sol, lumină, temperatură etc. Astfel, atunci când desfășurați un experiment tipic, trebuie să vă ocupați de un număr mare de factori. Motivul principal pentru care utilizarea ANOVA este de preferată recomparării a două eșantioane la niveluri diferite de factori folosind seriile de teste t este că ANOVA este semnificativ mai eficientă și, pentru eșantioane mici, mai informativ.

Să presupunem că în exemplul de analiză cu două eșantioane discutat mai sus, adăugăm un alt factor, cum ar fi Gen. Fiecare grup este format acum din 3 bărbați și 3 femei. Planul acestui experiment poate fi prezentat sub forma unui tabel:

Înainte de a face calculele, puteți vedea că în acest exemplu, varianța totală are cel puțin trei surse:

1) eroare aleatorie (varianta intragrup),

2) variabilitatea asociată cu apartenența la grupul experimental

3) variabilitatea datorată sexului obiectelor de observaţie.

Rețineți că există o altă posibilă sursă de variabilitate - interacțiunea factorilor, despre care vom discuta mai târziu). Ce se întâmplă dacă nu includem genul ca factor în analiza noastră și calculăm testul t obișnuit? Dacă calculăm sume de pătrate ignorând sexul (adică combinând obiecte de sexe diferite într-un singur grup atunci când calculăm varianța în interiorul grupului și obținem astfel suma pătratelor pentru fiecare grup egală cu SS = 10 și suma totală a pătratelor SS = 10+10 = 20) , obținem o varianță intragrup mai mare decât cu o analiză mai precisă cu subgrupare suplimentară după sex (în acest caz, mediile intragrup vor fi egale cu 2, iar suma totală a pătratelor intragrup este egală cu SS = 2+2). +2+2 = 8).

Deci, odată cu introducerea unui factor suplimentar: sexul, varianța reziduală a scăzut. Acest lucru se datorează faptului că media bărbaților este mai mică decât media feminină, iar această diferență de medie crește variabilitatea generală în cadrul grupului dacă sexul nu este luat în considerare. Controlul variației erorii crește sensibilitatea (puterea) testului.

Acest exemplu arată un alt avantaj al analizei varianței în comparație cu testul t obișnuit cu două eșantioane. Analiza varianței vă permite să studiați fiecare factor controlând valorile altor factori. Acesta, de fapt, este principalul motiv pentru puterea sa statistică mai mare (sunt necesare dimensiuni mai mici ale eșantionului pentru a obține rezultate semnificative). Din acest motiv, analiza varianței, chiar și pe eșantioane mici, oferă rezultate mai semnificative din punct de vedere statistic decât un simplu test t.

) este conceput pentru a compara doar două populații. Cu toate acestea, este adesea folosit greșit pentru compararea în perechi a mai multor grupuri (Fig. 1), ceea ce provoacă așa-numitul. efectul comparațiilor multiple(Engleză) comparații multiple; Glantz 1999, p. 101-104). Vom vorbi mai târziu despre acest efect și despre cum să-l rezolvăm. În această postare voi descrie principiile analiza univariată a varianței doar conceput pentru simultan compararea valorilor medii a două sau mai multe grupuri. Principiile ANOVA un analiză o f va riance, ANOVA) au fost dezvoltate în anii 1920. Sir Ronald Aylmer Fisher Ronald Aylmer Fisher) - "un geniu care a pus aproape de unul singur bazele statisticii moderne" (Hald 1998).

Poate apărea întrebarea: de ce metoda folosită pentru comparație mediu valorile se numește dispersiv analiză? Chestia este că atunci când stabilim diferența dintre valorile medii, de fapt comparăm variațiile populațiilor analizate. Cu toate acestea, primul lucru mai întâi...

Formularea problemei

Exemplul de mai jos este preluat din carte Maindonald & Maro(2010). Datele de greutate sunt disponibile pentru tomate (plantă întreagă; greutate, în kg) cultivate timp de 2 luni în trei condiții experimentale diferite (trt, de la tratament) - pe apă (apă), într-un mediu cu adaos de îngrășământ (nutrient), precum și într-un mediu cu adaos de îngrășământ și erbicid 2,4-D (nutrient + 24D):

# Creați un tabel cu date: roșie<- data.frame (weight= c (1.5 , 1.9 , 1.3 , 1.5 , 2.4 , 1.5 , # water 1.5 , 1.2 , 1.2 , 2.1 , 2.9 , 1.6 , # nutrient 1.9 , 1.6 , 0.8 , 1.15 , 0.9 , 1.6 ) , # nutrient+24D trt = rep (c ("Water" , "Nutrient" , "Nutrient+24D" ) , c (6 , 6 , 6 ) ) ) # Vezi rezultatul: Greutate de greutate TRT 1 1,50 Apa 2 1,50 Apa 3 1.30 Apa 4 1,50 Apa 5 2.40 Apa 6 1.50 Apa 7 1.50 Nutrient 8 1.20 Nutrient 9 1,20 Nutrient 10 2.10 Nutrient 11 2.90 Nutrient 12 1,60 Nutrient 13 1.90 Nutrient + 24d 14 1.60 Nutrient + 24d 15 0,80 Nutrient+24D 16 1,15 Nutrient+24D 17 0,90 Nutrient+24D 18 1,60 Nutrient+24D


Variabila trt este un factor cu trei niveluri. Pentru o comparație mai vizuală a condițiilor experimentale în viitor, vom face ca nivelul „apei” să fie cel de bază (ing. referinţă), adică nivelul cu care R va compara toate celelalte niveluri. Acest lucru se poate face cu funcția relevel():


Pentru a înțelege mai bine proprietățile datelor disponibile, le vizualizăm folosind diferențele observate între mediile de grup sunt nesemnificative și sunt cauzate de influența unor factori aleatori (adică, de fapt, toate măsurătorile obținute ale greutății plantelor provin de la o populație generală distribuită normal) :

Subliniem încă o dată că exemplul luat în considerare corespunde cazului un singur factor analiza varianței: studiem efectul unui factor - condițiile de creștere (cu trei niveluri - Apă, Nutrient și Nutrient + 24D) asupra variabilei de răspuns care ne interesează - greutatea plantelor.

Din păcate, cercetătorul nu are aproape niciodată ocazia să studieze întreaga populație. Cum putem ști dacă ipoteza nulă de mai sus este adevărată, având în vedere doar datele eșantionului? Putem formula această întrebare în mod diferit: care este probabilitatea de a obține diferențe observate între mediile grupului prin extragerea de eșantioane aleatorii dintr-o populație distribuită normal? Pentru a răspunde la această întrebare, avem nevoie de un test statistic care să caracterizeze cantitativ amploarea diferențelor dintre grupurile comparate.