Analiza multivariată a varianței.

Utilizarea statisticilor în această notă va fi prezentată cu un exemplu transversal. Să presupunem că ești manager de producție la Perfect Parachute. Parașutele sunt fabricate din fibre sintetice furnizate de patru furnizori diferiți. Una dintre principalele caracteristici ale unei parașute este rezistența sa. Trebuie să vă asigurați că toate fibrele furnizate au aceeași rezistență. Pentru a răspunde la această întrebare, este necesar să se proiecteze un experiment în care să se măsoare rezistența parașuturilor țesute din fibre sintetice de la diferiți furnizori. Informațiile obținute în timpul acestui experiment vor determina care furnizor oferă cele mai durabile parașute.

Multe aplicații sunt legate de experimente în care sunt luate în considerare mai multe grupuri sau niveluri ale unui factor. Unii factori, cum ar fi temperatura de ardere a ceramicii, pot avea mai multe niveluri numerice (adică 300°, 350°, 400° și 450°). Alți factori, cum ar fi amplasarea mărfurilor într-un supermarket, pot avea niveluri categorice (de exemplu, primul furnizor, al doilea furnizor, al treilea furnizor, al patrulea furnizor). Experimentele univariate în care unitățile experimentale sunt repartizate aleatoriu în grupuri sau niveluri de factori sunt numite complet randomizate.

UtilizareF-criterii de evaluare a diferenţelor dintre mai multe aşteptări matematice

Dacă măsurătorile numerice ale unui factor în grupuri sunt continue și sunt îndeplinite unele condiții suplimentare, analiza varianței (ANOVA - Un analiză o f Va riance). Analiza varianței folosind modele complet randomizate se numește ANOVA unidirecțională. Într-un fel, termenul de analiză a varianței este înșelător, deoarece compară diferențele dintre valorile medii ale grupurilor, nu dintre varianțe. Cu toate acestea, compararea așteptărilor matematice se realizează tocmai pe baza analizei variației datelor. În procedura ANOVA, variația totală a rezultatelor măsurătorilor este împărțită în intergrup și intragrup (Fig. 1). Variația intragrup este explicată prin eroare experimentală, în timp ce variația intergrup este explicată prin efectele condițiilor experimentale. Simbol cu indică numărul de grupuri.

Orez. 1. Separarea variației într-un experiment complet randomizat

Descărcați nota în sau format, exemple în format

Să ne prefacem că cu grupurile sunt extrase din populații independente care au o distribuție normală și aceeași varianță. Ipoteza nulă este că așteptările matematice ale populațiilor sunt aceleași: H 0: μ 1 = μ 2 = ... = μ s. Ipoteza alternativă afirmă că nu toate așteptările matematice sunt aceleași: H 1: nu toate μ j sunt la fel j= 1, 2, …, s).

Pe fig. 2 prezintă adevărata ipoteză nulă despre așteptările matematice ale celor cinci grupuri comparate, cu condiția ca populațiile generale să aibă o distribuție normală și aceeași varianță. Cele cinci populații asociate cu diferite niveluri de factori sunt identice. Prin urmare, ele sunt suprapuse una peste alta, având aceeași așteptare, variație și formă matematică.

Orez. 2. Cinci populații au aceeași așteptare matematică: μ 1 = μ 2 = μ 3 = μ 4 = μ 5

Pe de altă parte, să presupunem că de fapt ipoteza nulă este falsă, iar al patrulea nivel are cea mai mare așteptare matematică, primul nivel are o așteptare matematică puțin mai mică, iar nivelurile rămase au așteptări matematice aceleași și chiar mai mici (Fig. 3). Rețineți că, cu excepția mărimii mediei, toate cele cinci populații sunt identice (adică au aceeași variabilitate și formă).

Orez. 3. Se observă efectul condiţiilor experimentale: μ 4 > μ 1 > μ 2 = μ 3 = μ 5

La testarea ipotezei egalității așteptărilor matematice a mai multor populații generale, variația totală este împărțită în două părți: variația intergrup, datorită diferențelor dintre grupuri, și variația intragrup, datorită diferențelor dintre elementele aparținând aceluiași grup. Variația totală este exprimată ca suma totală a pătratelor (SST - suma totală a pătratelor). Întrucât ipoteza nulă este că așteptarea tuturor cu grupurile sunt egale între ele, variația totală este egală cu suma diferențelor pătrate dintre observațiile individuale și media totală (media mediilor) calculată pentru toate eșantioanele. Varianta completa:

Unde - media generală, Xij - i- Mă uit la mine j- al-lea grup sau nivel, nj- numărul de observații în j-a grupa, n- numărul total de observații în toate grupurile (de ex. n = n 1 + n 2 + … + nc), cu- numărul de grupe sau niveluri studiate.

Variație intergrup, numită de obicei suma pătratelor între grupuri (SSA), este egală cu suma diferențelor pătrate dintre media eșantionului fiecărui grup jși media generală înmulțit cu volumul grupului corespunzător nj:

Unde cu- numărul de grupe sau niveluri studiate, nj- numărul de observații în j-a grupa, j- Rău j-a grupa, - media generală.

Variație intragrup, numită de obicei suma pătratelor din grupuri (SSW), este egală cu suma diferențelor pătrate dintre elementele fiecărui grup și media eșantionului acestui grup j:

Unde Xij - i-al-lea element j-a grupa, j- Rău j-a grupa.

Pentru că sunt comparați cu nivelurile factorilor, suma pătratelor intergrupare are s - 1 grade de libertate. Fiecare dintre cu niveluri are nj – 1 grade de libertate, deci suma pătratelor intragrup are n- cu grade de libertate și

În plus, suma totală a pătratelor are n – 1 grade de libertate, deoarece fiecare observaţie Xij comparativ cu media generală calculată pe ansamblu n observatii. Dacă fiecare dintre aceste sume este împărțită la numărul corespunzător de grade de libertate, vor apărea trei tipuri de dispersie: intergrup(pătrat mediu între - MSA), intragrup(pătrat mediu în cadrul - MSW) și complet(total mediu pătrat - MST):

În ciuda faptului că scopul principal al analizei varianței este de a compara așteptările matematice cu grupuri pentru a dezvălui efectul condițiilor experimentale, numele său se datorează faptului că instrumentul principal este analiza varianțelor de diferite tipuri. Dacă ipoteza nulă este adevărată, și între valorile așteptate cu grupuri nu există diferențe semnificative, toate cele trei variații - MSA, MSW și MST - sunt estimări ale varianței σ2 inerente datelor analizate. Deci pentru a testa ipoteza nulă H 0: μ 1 = μ 2 = ... = μ sși ipoteză alternativă H 1: nu toate μ j sunt la fel j = 1, 2, …, cu), este necesar să se calculeze statisticile F-criteriul, care este raportul dintre două varianțe, MSA și MSW. Test F-statistica in analiza univariata a variantei

Statistici F-criteriile se supune F- distributie cu s - 1 grade de libertate în numărător MSAși n - cu grade de libertate în numitor MSW. Pentru un nivel de semnificație dat α, ipoteza nulă este respinsă dacă este calculată F FU inerent F- distributie cu s - 1 n - cu grade de libertate în numitor. Astfel, după cum se arată în fig. 4, regula deciziei se formulează astfel: ipoteza nulă H 0 respins dacă F > FU; în caz contrar, nu este respins.

Orez. 4. Zona critică de analiză a varianței la testarea unei ipoteze H 0

Dacă ipoteza nulă H 0 este adevărat, calculat F-statistica este apropiată de 1, întrucât numărătorul și numitorul acestuia sunt estimări de aceeași valoare - varianța σ 2 inerentă datelor analizate. Dacă ipoteza nulă H 0 este fals (și există o diferență semnificativă între valorile așteptărilor diferitelor grupuri), calculat F-statistica va fi mult mai mare decât unu, întrucât numărătorul său, MSA, pe lângă variabilitatea naturală a datelor, estimează efectul condițiilor experimentale sau diferența dintre grupuri, în timp ce numitorul MSW estimează doar variabilitatea naturală a datelor. Astfel, procedura ANOVA este F este un test în care, la un nivel de semnificație dat α, ipoteza nulă este respinsă dacă valoarea calculată F- statisticile sunt mai mari decât valoarea critică superioară FU inerent F- distributie cu s - 1 grade de libertate în numărător și n - cu grade de libertate în numitor, așa cum se arată în fig. 4.

Pentru a ilustra analiza unidirecțională a varianței, să revenim la scenariul prezentat la începutul notei. Scopul experimentului este de a determina dacă parașutele țesute din fibre sintetice obținute de la diferiți furnizori au aceeași rezistență. Fiecare grup are cinci parașute țesute. Grupurile sunt împărțite pe furnizor - Furnizor 1, Furnizor 2, Furnizor 3 și Furnizor 4. Rezistența parașutelor este măsurată cu ajutorul unui dispozitiv special care testează țesătura pentru rupere pe ambele părți. Forța necesară pentru spargerea unei parașute este măsurată pe o scară specială. Cu cât forța de rupere este mai mare, cu atât parașuta este mai puternică. Excel permite analiza F-Statistici cu un singur clic. Treceți prin meniu DateAnaliza datelor, și selectați linia Analiza unidirecțională a varianței, completați fereastra deschisă (Fig. 5). Rezultatele experimentului (rezistența golului), unele statistici descriptive și rezultatele analizei unidirecționale a varianței sunt prezentate în Fig. 6.

Orez. 5. Fereastra Pachet de analiză ANOVA unidirecțională excela

Orez. Fig. 6. Indicatori de rezistență ai parașutelor țesute din fibre sintetice obținuți de la diferiți furnizori, statistici descriptive și rezultate ale analizei unidirecționale a varianței

O analiză a figurii 6 arată că există o oarecare diferență între mediile eșantionului. Rezistența medie a fibrelor obținute de la primul furnizor este de 19,52, de la al doilea - 24,26, de la al treilea - 22,84 și de la al patrulea - 21,16. Este această diferență semnificativă statistic? Distribuția forței de rupere este prezentată în diagrama de împrăștiere (Fig. 7). Ea arată clar diferențele atât între grupuri, cât și în interiorul acestora. Dacă volumul fiecărui grup ar fi mai mare, ele ar putea fi analizate folosind un diagramă de tulpină și frunze, un diagramă cu casete sau un diagramă de distribuție normală.

Orez. 7. Diagrama de împrăștiere a rezistenței a parașutelor țesute din fibre sintetice obținute de la patru furnizori

Ipoteza nulă afirmă că nu există diferențe semnificative între valorile puterii medii: H 0: μ 1 = μ 2 = μ 3 = μ 4. O ipoteză alternativă este că există cel puțin un furnizor a cărui rezistență medie a fibrei diferă de ceilalți: H 1: nu toate μ j sunt la fel ( j = 1, 2, …, cu).

Medie generală (vezi figura 6) = MEDIE (D12:D15) = 21,945; pentru a determina, puteți, de asemenea, să mediați toate cele 20 de numere originale: \u003d MEDIE (A3: D7). Se calculează valorile variației Pachet de analizeși sunt reflectate în tabel Analiza variatiei(vezi Fig. 6): SSA = 63,286, SSW = 97,504, SST = 160,790 (vezi coloana SS Mese Analiza variatiei figura 6). Mediile se calculează împărțind aceste sume de pătrate la numărul corespunzător de grade de libertate. În măsura în care cu= 4 și n= 20, obținem următoarele valori ale gradelor de libertate; pentru SSA: s - 1= 3; pentru SSW: n–c= 16; pentru SST: n - 1= 19 (vezi coloana df). Astfel: MSA = SSA / ( c - 1)= 21,095; MSW=SSW/( n–c) = 6,094; MST = SST / ( n - 1) = 8,463 (vezi coloana DOMNIȘOARĂ). F-statistici = MSA / MSW = 3.462 (vezi coloana F).

Valoare critică superioară FU, caracteristic pentru F-distribuţia, se determină prin formula = F. OBR (0,95; 3; 16) = 3,239. Parametrii funcției =F.OBR(): α = 0,05, numărătorul are trei grade de libertate, iar numitorul este 16. Astfel, numărul calculat F-statistică egală cu 3,462 depășește valoarea critică superioară FU= 3,239, ipoteza nulă este respinsă (Fig. 8).

Orez. 8. Regiunea critică de analiză a varianței la un nivel de semnificație de 0,05 dacă numărătorul are trei grade de libertate și numitorul este -16

R-valoare, adică probabilitatea ca în baza unei adevărate ipoteze nule F- statistici nu mai puțin de 3,46, egal cu 0,041 sau 4,1% (vezi coloana valoarea p Mese Analiza variatiei figura 6). Deoarece această valoare nu depășește nivelul de semnificație α = 5%, ipoteza nulă este respinsă. În plus, R-valoare indică faptul că probabilitatea de a găsi o astfel de diferență sau o diferență mare între așteptările matematice ale populației generale, cu condiția ca acestea să fie de fapt aceleași, este de 4,1%.

Asa de. Există o diferență între cele patru medii ale eșantionului. Ipoteza nulă a fost că toate așteptările matematice ale celor patru populații sunt egale. În aceste condiții, o măsură a variabilității totale (adică variația totală a SST) a forței tuturor parașutelor este calculată prin însumarea diferențelor pătrate dintre fiecare observație. Xijși media generală . Apoi variația totală a fost împărțită în două componente (vezi Fig. 1). Prima componentă a fost variația intergrup în SSA, iar a doua componentă a fost variația intragrup în SSW.

Ce explică variabilitatea datelor? Cu alte cuvinte, de ce nu sunt toate observațiile la fel? Unul dintre motive este că diferite firme furnizează fibre cu rezistențe diferite. Acest lucru explică parțial de ce grupurile au valori așteptate diferite: cu cât efectul condițiilor experimentale este mai puternic, cu atât este mai mare diferența dintre valorile medii ale grupurilor. Un alt motiv pentru variabilitatea datelor este variabilitatea naturală a oricărui proces, în acest caz producția de parașute. Chiar dacă toate fibrele ar fi achiziționate de la același furnizor, puterea lor nu ar fi aceeași, toate celelalte fiind egale. Deoarece acest efect apare în fiecare dintre grupuri, se numește variație în interiorul grupului.

Diferențele dintre mediile eșantionului se numesc variația intergrup a SSA. O parte a variației intragrup, așa cum sa menționat deja, se explică prin faptul că datele aparțin unor grupuri diferite. Cu toate acestea, chiar dacă grupurile ar fi exact aceleași (adică, ipoteza nulă ar fi adevărată), ar exista totuși variații între grupuri. Motivul pentru aceasta constă în variabilitatea naturală a procesului de fabricare a parașutei. Deoarece eșantioanele sunt diferite, mijloacele lor de eșantion diferă unele de altele. Prin urmare, dacă ipoteza nulă este adevărată, atât variabilitatea între grupuri, cât și variabilitatea în interiorul grupului sunt estimări ale variabilității populației. Dacă ipoteza nulă este falsă, ipoteza între grupuri va fi mai mare. Acest fapt stă la baza F-criterii de comparare a diferenţelor dintre aşteptările matematice ale mai multor grupuri.

După efectuarea ANOVA unidirecțională și găsirea unor diferențe semnificative între firme, rămâne necunoscut care furnizor este semnificativ diferit de ceilalți. Știm doar că așteptările matematice ale populațiilor nu sunt egale. Cu alte cuvinte, cel puțin una dintre așteptările matematice diferă semnificativ de celelalte. Pentru a determina care furnizor este diferit de ceilalți, puteți utiliza Procedura Tukey, care utilizează compararea în perechi între furnizori. Această procedură a fost dezvoltată de John Tukey. Ulterior, el și C. Cramer au modificat independent această procedură pentru situațiile în care dimensiunile eșantionului diferă unele de altele.

Comparație multiplă: procedura Tukey-Kramer

În scenariul nostru, analiza unidirecțională a varianței a fost utilizată pentru a compara puterea parașutelor. După ce au găsit diferențe semnificative între așteptările matematice ale celor patru grupuri, este necesar să se determine care grupuri diferă unele de altele. Deși există mai multe modalități de a rezolva această problemă, vom descrie doar procedura de comparare multiplă Tukey-Kramer. Această metodă este un exemplu de proceduri de comparare post-hoc, deoarece ipoteza de testat este formulată după analiza datelor. Procedura Tukey-Kramer vă permite să comparați simultan toate perechile de grupuri. În prima etapă, diferențele sunt calculate Xj - Xj, Unde j ≠j, între așteptările matematice s(s – 1)/2 grupuri. Interval critic Procedura Tukey-Kramer se calculează cu formula:

Unde Q U- valoarea critică superioară a distribuţiei intervalului studentizat, care are cu grade de libertate în numărător și n - cu grade de libertate în numitor.

Dacă dimensiunile eșantionului nu sunt aceleași, intervalul critic este calculat pentru fiecare pereche de așteptări matematice separat. La ultima etapă, fiecare s(s – 1)/2 perechile de așteptări matematice se compară cu intervalul critic corespunzător. Elementele unei perechi sunt considerate a fi semnificativ diferite dacă modulul diferenței | Xj - Xj| dintre ele depășește intervalul critic.

Să aplicăm procedura Tukey-Cramer la problema forței parașutelor. Deoarece compania de parașute are patru furnizori, ar trebui testate 4(4 – 1)/2 = 6 perechi de furnizori (Figura 9).

Orez. 9. Comparații în perechi ale mediilor eșantionului

Deoarece toate grupurile au același volum (adică toate nj = nj), este suficient să se calculeze un singur interval critic. Pentru a face acest lucru, conform tabelului ANOVA(Fig. 6) determinăm valoarea MSW = 6,094. Apoi găsim valoarea Q U la α = 0,05, cu= 4 (numărul de grade de libertate în numărător) și n- cu= 20 – 4 = 16 (numărul de grade de libertate din numitor). Din păcate, nu am găsit funcția corespunzătoare în Excel, așa că am folosit tabelul (Fig. 10).

Orez. 10. Valoarea critică a intervalului studentizat Q U

Primim:

Deoarece doar 4,74 > 4,47 (a se vedea tabelul de jos din Figura 9), există o diferență semnificativă statistic între primul și al doilea furnizor. Toate celelalte perechi au mijloace de probă, care nu ne permit să vorbim despre diferența lor. În consecință, rezistența medie a parașutelor țesute din fibre achiziționate de la primul furnizor este semnificativ mai mică decât cea a celui de-al doilea.

Condiții necesare pentru analiza unidirecțională a varianței

Când am rezolvat problema rezistenței parașutelor, nu am verificat dacă sunt îndeplinite condițiile în care se poate folosi factorul unic. F-criteriu. De unde știi dacă poți aplica un singur factor F-criteriu în analiza datelor experimentale specifice? Un singur factor F Testul - poate fi aplicat numai dacă sunt îndeplinite trei ipoteze de bază: datele experimentale trebuie să fie aleatoare și independente, să aibă o distribuție normală, iar variațiile lor trebuie să fie aceleași.

Prima presupunere este aleatorie și independență a datelor- ar trebui făcută întotdeauna, deoarece corectitudinea oricărui experiment depinde de aleatorietatea alegerii și/sau de procesul de randomizare. Pentru a evita denaturarea rezultatelor, este necesar ca datele să fie extrase din cu populațiile în mod aleatoriu și independent unele de altele. În mod similar, datele ar trebui să fie distribuite aleatoriu cu nivelurile factorului de interes pentru noi (grupuri experimentale). Încălcarea acestor condiții poate distorsiona grav rezultatele analizei varianței.

A doua presupunere este normalitate- înseamnă că datele sunt extrase din populații distribuite normal. Cât despre t-criteriul, analiza unidirecțională a varianței bazată pe F-criteriul este relativ insensibil la încălcarea acestei condiții. Dacă distribuția nu este prea departe de normal, nivelul de semnificație F-criteriul se modifică puțin, mai ales dacă dimensiunea eșantionului este suficient de mare. Dacă condiția distribuției normale este grav încălcată, aceasta ar trebui aplicată.

A treia presupunere este uniformitatea dispersiei- înseamnă că varianțele fiecărei populații generale sunt egale între ele (adică σ 1 2 = σ 2 2 = … = σ j 2). Această ipoteză permite să se decidă dacă să se separe sau să combine variațiile în interiorul grupului. Dacă volumele grupelor sunt aceleași, condiția de omogenitate a varianței are un efect redus asupra concluziilor obținute folosind F-criterii. Cu toate acestea, dacă dimensiunile eșantionului nu sunt aceleași, încălcarea condiției de egalitate a variațiilor poate distorsiona grav rezultatele analizei varianței. Prin urmare, ar trebui să se străduiască să se asigure că dimensiunile eșantionului sunt aceleași. Una dintre metodele de verificare a ipotezei despre omogenitatea varianței este criteriul Levenay descris mai jos.

Dacă, din toate cele trei condiții, numai condiția de uniformitate a dispersiei este încălcată, procedură similară t-criteriul folosind o varianță separată (pentru mai multe detalii, vezi). Cu toate acestea, dacă ipotezele distribuției normale și omogenității varianței sunt încălcate în același timp, este necesar să se normalizeze datele și să se reducă diferențele dintre variații sau să se aplice o procedură neparametrică.

Criteriul lui Leveney pentru verificarea omogenității varianței

In ciuda faptului ca F- criteriul este relativ rezistent la încălcări ale condiției de egalitate a variațiilor în grupuri, o încălcare gravă a acestei ipoteze afectează semnificativ nivelul de semnificație și puterea criteriului. Poate unul dintre cele mai puternice este criteriul Levenay. Pentru a verifica egalitatea varianțelor cu populațiile generale, vom testa următoarele ipoteze:

H 0: σ 1 2 = σ 2 2 = ... = σj 2

H 1: Nu tot σ j 2 sunt la fel ( j = 1, 2, …, cu)

Testul Leveney modificat se bazează pe afirmația că, dacă variabilitatea în grupuri este aceeași, analiza varianței valorilor absolute a diferențelor dintre observații și medianele de grup poate fi aplicată pentru a testa ipoteza nulă a egalității varianțelor. Deci, mai întâi ar trebui să calculați valorile absolute ale diferențelor dintre observații și mediane din fiecare grup și apoi să efectuați o analiză unidirecțională a varianței asupra valorilor absolute obținute ale diferențelor. Pentru a ilustra criteriul Levenay, să revenim la scenariul prezentat la începutul notei. Folosind datele prezentate în Fig. 6, vom efectua o analiză similară, dar cu privire la modulele diferențelor de date inițiale și mediane pentru fiecare probă separat (Fig. 11).

Analiza varianței vă permite să explorați diferența dintre grupurile de date, pentru a determina dacă aceste discrepanțe sunt aleatorii sau cauzate de circumstanțe specifice. De exemplu, dacă vânzările unei companii într-una dintre regiuni au scăzut, atunci folosind analiza varianței, puteți afla dacă scăderea cifrei de afaceri în această regiune este accidentală în comparație cu restul și, dacă este necesar, să efectuați modificări organizaționale. Atunci când se efectuează un experiment în diferite condiții, analiza varianței va ajuta la determinarea cât de mult influențează factorii externi măsurătorile sau abaterile sunt aleatorii. Dacă în producție, pentru a îmbunătăți calitatea produselor, modul de procesare este schimbat, atunci analiza varianței ne permite să evaluăm rezultatele impactului acestui factor.

Pe aceasta exemplu arătăm cum se efectuează ANOVA pe date experimentale.

Exercitiul 1. Există patru loturi de materii prime pentru industria textilă. Din fiecare lot au fost selectate cinci probe și au fost efectuate teste pentru a determina magnitudinea sarcinii de rupere. Rezultatele testului sunt prezentate în tabel.

71" height="29" bgcolor="white" style="border:.75pt negru solid; vertical-align:top;background:white">

Fig.1


> Deschideți o foaie de calcul Microsoft Excel. Faceți clic pe eticheta Sheet2 pentru a comuta la o altă foaie de lucru.

> Introduceți datele ANOVA prezentate în Figura 1.

> Convertiți datele în format numeric. Pentru a face acest lucru, selectați comanda de meniu Format Cell. Pe ecran va apărea fereastra cu formatul celulei (Fig. 2). Selectați Format numeric și datele introduse vor fi convertite în forma prezentată în fig. 3

> Selectați comanda de meniu Service Data Analysis (Instrumente * Data Analysis). Fereastra Data Analysis (Data Analysis) va apărea pe ecran (Fig. 4).

> Faceți clic pe linia Single Factor Analysis of Variance (Anova: Single Factor) din lista Instrumente de analiză (Anova: Single Factor).

> Faceți clic pe OK pentru a închide fereastra Data Analysis (Data Analysis). Fereastra de analiză unidirecțională a varianței va apărea pe ecran pentru efectuarea analizei de varianță a datelor (Fig. 5).

https://pandia.ru/text/78/446/images/image006_46.jpg" width="311" height="214 src=">

Fig.5

> Dacă într-un grup de controale Date de intrare(Intrare) comutarea pe linii nu este setată, apoi setați-o astfel încât programul Excel să accepte grupuri de date pe linii - loturi.

> Instalați Etichete casete de selectareîn primul rând (Etichete în Firts Rom) în grupul de controale de intrare, dacă prima coloană a intervalului de date selectat conține nume de rând.

> În câmpul de introducere Alfa Intrarea grupului de control (A1pha) este implicit la o valoare de 0,05, care este legată de probabilitatea de eroare în analiza varianței.

> Dacă comutatorul Nev Worksheet Ply nu este setat în grupul de controale Opțiuni de intrare, atunci setați-l astfel încât rezultatele analizei varianței să fie plasate pe o nouă foaie de lucru

> Faceți clic pe OK pentru a închide fereastra Anova: Single Factor. Rezultatele analizei varianței vor apărea pe o nouă foaie de lucru (Fig. 6).

Gama de celule A4:E6 conține rezultatele statisticilor descriptive. Linia 4 conține numele parametrilor, liniile conțin valorile statistice calculate pe loturi.

În coloană Verifica(Număr) sunt numărul de măsurători, în coloana Sum - suma valorilor, în coloana Media (Media) - valorile medii aritmetice, în coloana Variance (Varianse) - dispersie.

Rezultatele obţinute arată că cea mai mare sarcină medie de rupere este în lotul #3, iar cea mai mare dispersie a sarcinii de rupere este în lotul #1.

Într-o serie de celule A11:G16 afișează informații cu privire la semnificația discrepanțelor dintre grupurile de date. Rândul 12 conține numele parametrilor de analiză a varianței, rândul 13 - rezultatele prelucrării intergrup, linia 14 - rezultatele prelucrării intragrup și linia 16 - suma valorilor celor două linii menționate.

În coloană SS (qi) sunt situate valorile variației, adică sumele pătratelor peste toate abaterile. Variația, ca și dispersia, caracterizează răspândirea datelor. Din tabel se poate observa că răspândirea intergrup a sarcinii de rupere este semnificativ mai mare decât variația intragrup.

În coloană df (k) se găsesc valorile numerelor de grade de libertate. Aceste numere indică numărul de abateri independente peste care va fi calculată varianța. De exemplu, numărul de grade de libertate intergrup este egal cu diferența dintre numărul de grupuri de date și unul. Cu cât numărul de grade de libertate este mai mare, cu atât este mai mare fiabilitatea parametrilor de dispersie. Datele privind gradele de libertate din tabel arată că rezultatele în cadrul grupului sunt mai fiabile decât parametrii dintre grupuri.

În coloană DOMNIȘOARĂ (S2 ) sunt localizate valorile de dispersie, care sunt determinate de raportul de variație și numărul de grade de libertate. Dispersia caracterizează gradul de împrăștiere a datelor, dar, spre deosebire de mărimea variației, nu are o tendință directă de creștere odată cu creșterea numărului de grade de libertate. Tabelul arată că varianța intergrup este mult mai mare decât varianța intragrup.

În coloană F localizat, valoare F- statistici, calculat prin raportul dintre variațiile intergrup și intragrup.

În coloană Fcritic(F crit) se localizează valoarea F-critică, calculată din numărul de grade de libertate și valoarea lui Alpha (A1pha). Criteriul de utilizare a valorii F-statistică și F-critică Pescar-Snedekora.

Dacă statistica F este mai mare decât valoarea critică F, atunci se poate argumenta că diferențele dintre grupurile de date nu sunt aleatorii. adică la nivelul semnificaţiei α = 0,05 (cu o fiabilitate de 0,95) se respinge ipoteza nulă și se acceptă alternativa: diferența dintre loturile de materii prime are un impact semnificativ asupra mărimii sarcinii de rupere.

Coloana P-valoare conține valoarea probabilității ca discrepanța dintre grupuri să fie aleatorie. Deoarece această probabilitate este foarte mică în tabel, abaterea dintre grupuri nu este aleatorie.

2. Rezolvarea problemelor de analiză bidirecțională a varianței fără repetări

Microsoft Excel are funcția Anova: (Two-Factor Without Replication), care este utilizată pentru a identifica faptul că influența factorilor controlabili DAR și LA pe un atribut eficient bazat pe date eșantionului și pe fiecare nivel de factori DAR și LA doar un eșantion se potrivește. Pentru a apela această funcție, selectați comanda din bara de meniu Serviciu – Analiza datelor. Se va deschide o fereastră pe ecran. Analiza datelor, în care ar trebui să selectați o valoare Analiza bidirecțională a varianței fără repetăriși faceți clic pe butonul OK. Ca rezultat, pe ecran se va deschide caseta de dialog prezentată în Figura 1.

78" height="42" bgcolor="white" style="border:.75pt negru solid; vertical-align:top;background:white">

2. Caseta de validare Etichete este setată dacă primul rând din intervalul de intrare conține titluri de coloană. Dacă nu există antete, caseta de selectare ar trebui să fie debifată. În acest caz, numele standard vor fi generate automat pentru datele intervalului de ieșire.

3. În câmpul Alpha se introduce nivelul de semnificație acceptat. α , care corespunde probabilității unei erori de primul fel.

4. Comutatorul din grupul Opțiuni de ieșire poate fi setat pe una dintre cele trei poziții: Interval de ieșire, Strat de foaie de lucru nouă sau Registr de lucru nou.

Exemplu.

Analiza bidirecțională a varianței fără repetări(Anova: Two-Factor Without Replication) în exemplul următor.

Pe imagine. Figura 2 prezintă randamentul (c/ha) a patru soiuri de grâu (patru niveluri de factor A) realizat cu cinci tipuri de îngrășăminte (cinci niveluri de factor B). Datele au fost obținute din 20 de parcele de aceeași dimensiune și acoperire de sol similară. Trebuie definit dacă varietatea și tipul de îngrășământ afectează randamentul grâului.

Analiza bidirecțională a varianței fără repetări sunt prezentate în figura 3.

După cum se poate observa din rezultate, valoarea calculată a valorii statistice F pentru factorul A (tipul de îngrășământ) FDAR= l,67 , iar regiunea critică este formată din intervalul din dreapta (3.49; +∞). La fel de FDAR= l,67 nu se încadrează în regiunea critică, ipoteza HA: A 1 = A 2 + = ak Accept, adică credem că în acest experiment tipul de îngrășământ nu a avut niciun efect asupra randamentului.

Valoarea estimată a statisticii F pentru factorul B (soi de grâu) FLA =2,03 , iar regiunea critică este formată din intervalul din dreapta (3,259;+∞).

La fel de FLA=2,03 nu se încadrează în regiunea critică, ipoteza HB: b1 = b2 = ... = bm

de asemenea, acceptăm, adică credem că în asta În experiment, soiul de grâu nu a afectat nici randamentul.

2. Analiza bidirecțională a varianțeicrepetari

Microsoft Excel are funcția Anova: Two-Factor With Replication, care este, de asemenea, utilizată pentru a determina dacă factorii controlați A și B influențează o trăsătură de performanță pe baza datelor eșantionului, cu toate acestea, fiecare nivel al unuia dintre factorii A (sau B) corespunde mai multor eșantion de date.

Luați în considerare utilizarea funcției Analiza bidirecțională a varianței cu repetări pe exemplul următor.

Exemplul 2. in masa. Figura 6 prezintă creșterea zilnică în greutate (g) a 18 purcei colectați pentru studiu, în funcție de metoda de păstrare a purceilor (factorul A) și de calitatea hrănirii acestora (factorul B).

75" height="33" bgcolor="white" style="border:.75pt negru solid; vertical-align:top;background:white">

Această casetă de dialog setează următoarele opțiuni.

1. În câmpul Interval de intrare, introduceți o referință la intervalul de celule care conține datele analizate. Selectați celule din G 4 inainte de eu 13.

2. În câmpul Rânduri per eșantion, definiți numărul de eșantioane pentru fiecare nivel al unuia dintre factori. Fiecare nivel de factor trebuie să conțină același număr de eșantioane (rânduri de tabel). În cazul nostru, numărul de linii este de trei.

3. În câmpul Alpha, introduceți valoarea acceptată a nivelului de semnificație α , care este egal cu probabilitatea unei erori de tip I.

4. Comutatorul din grupul Opțiuni de ieșire poate fi setat pe una dintre cele trei poziții: Interval de ieșire (Interval de ieșire), Nouă foaie de lucru (Foaie de lucru nouă) sau Nou registru de lucru (Nou registru de lucru).

Rezultatele analizei bidirecționale a varianței folosind funcția Analiza bidirecțională a varianței cu repetări semnificative. Datorită faptului că interacţiunea acestor factori este nesemnificativă (la nivel de 5%).

Teme pentru acasă

1. Pe parcursul a șase ani, cinci tehnologii diferite au fost folosite pentru cultivarea culturilor. Datele experimentale (în c/ha) sunt date în tabel:

https://pandia.ru/text/78/446/images/image024_11.jpg" width="642" height="190 src=">

Se cere la nivelul de semnificație α = 0,05 să se stabilească dependența producției de plăci de înaltă calitate de linia de producție (factorul A).

3. Următoarele date sunt disponibile cu privire la randamentul a patru soiuri de grâu pe cele cinci loturi (blocuri) alocate:

https://pandia.ru/text/78/446/images/image026_9.jpg" width="598" height="165 src=">

Se cere la nivelul de semnificație α = 0,05 pentru a stabili impactul asupra productivității muncii al tehnologiilor (factorul A) și al întreprinderilor (factorul B).

Pentru a analiza variabilitatea unei trăsături sub influența variabilelor controlate se folosește metoda dispersiei.

Pentru a studia relația dintre valori - metoda factorială. Să luăm în considerare instrumentele analitice mai detaliat: metode factoriale, de dispersie și de dispersie cu doi factori pentru evaluarea variabilității.

ANOVA în Excel

Condițional, scopul metodei de dispersie poate fi formulat după cum urmează: să izolați din variabilitatea totală a parametrului 3 variabilitatea particulară:

  • 1 - determinată de acţiunea fiecăreia dintre valorile studiate;
  • 2 - dictate de relaţia dintre valorile studiate;
  • 3 - aleatoriu, dictat de toate circumstanțele nesocotite.

În Microsoft Excel, analiza varianței poate fi efectuată folosind instrumentul „Analiza datelor” (fila „Date” - „Analiză”). Acesta este un supliment pentru foi de calcul. Dacă programul de completare nu este disponibil, trebuie să deschideți „Opțiuni Excel” și să activați setarea pentru analiză.

Lucrarea începe cu proiectarea mesei. Reguli:

  1. Fiecare coloană ar trebui să conțină valorile unui factor studiat.
  2. Aranjați coloanele în ordine crescătoare/descrescătoare a valorii parametrului studiat.

Luați în considerare analiza varianței în Excel folosind un exemplu.

Psihologul companiei a analizat folosind o tehnică specială strategia comportamentului angajaților într-o situație conflictuală. Se presupune că comportamentul este influențat de nivelul de studii (1 - gimnaziu, 2 - gimnaziu specializat, 3 - studii superioare).

Introduceți datele într-o foaie de calcul Excel:


Parametrul semnificativ este umplut cu culoare galbenă. Deoarece valoarea P între grupuri este mai mare decât 1, testul lui Fisher nu poate fi considerat semnificativ. În consecință, comportamentul într-o situație conflictuală nu depinde de nivelul de educație.



Analiza factorială în Excel: un exemplu

Analiza factorială este o analiză multivariată a relațiilor dintre valorile variabilelor. Folosind această metodă, puteți rezolva cele mai importante sarcini:

  • descrieți cuprinzător obiectul măsurat (mai mult, cu capacitate, compact);
  • identificarea valorilor variabilelor ascunse care determină prezența corelațiilor statistice liniare;
  • clasificarea variabilelor (determinarea relației dintre ele);
  • reduce numărul de variabile necesare.

Luați în considerare exemplul analizei factoriale. Să presupunem că cunoaștem vânzările oricăror bunuri din ultimele 4 luni. Este necesar să se analizeze ce articole sunt solicitate și care nu.



Acum puteți vedea clar care vânzări de produse dau creșterea principală.

Analiza bidirecțională a varianței în Excel

Arată modul în care doi factori afectează modificarea valorii unei variabile aleatoare. Luați în considerare analiza bidirecțională a varianței în Excel folosind un exemplu.

Sarcină. Un grup de bărbați și femei au fost prezentate cu sunete de diferite volume: 1 - 10 dB, 2 - 30 dB, 3 - 50 dB. Timpul de răspuns a fost înregistrat în milisecunde. Este necesar să se determine dacă genul afectează răspunsul; Afectează zgomotul răspunsul?

Analiza variatiei

1. Conceptul de analiză a varianței

Analiza variatiei- aceasta este o analiză a variabilității unei trăsături sub influența oricăror factori variabili controlați. În literatura străină, analiza varianței este adesea denumită ANOVA, care se traduce ca analiză a varianței (Analysis of Variance).

Sarcina analizei varianței constă în izolarea variabilității de alt fel de variabilitatea generală a trăsăturii:

a) variabilitatea datorată acţiunii fiecăreia dintre variabilele independente studiate;

b) variabilitate datorată interacţiunii variabilelor independente studiate;

c) variație aleatoare datorată tuturor celorlalte variabile necunoscute.

Variabilitatea datorată acțiunii variabilelor studiate și interacțiunea acestora se corelează cu variabilitatea aleatorie. Un indicator al acestui raport este testul F al lui Fisher.

Formula de calcul a criteriului F include estimări ale variațiilor, adică parametrii de distribuție ai unei caracteristici, prin urmare criteriul F este un criteriu parametric.

Cu cât variabilitatea trăsăturii se datorează mai mult variabilelor (factorilor) studiate sau interacțiunii acestora, cu atât mai mare valorile empirice ale criteriului.

Zero ipoteza în analiza varianței va spune că valorile medii ale caracteristicii efective studiate în toate gradațiile sunt aceleași.

Alternativă ipoteza va afirma că valorile medii ale atributului efectiv în diferite gradații ale factorului studiat sunt diferite.

Analiza varianței ne permite să afirmăm o modificare a unei trăsături, dar nu indică direcţie aceste schimbari.

Să începem analiza varianței cu cel mai simplu caz, când studiem acțiunea numai unu variabilă (un singur factor).

2. Analiza unidirecțională a varianței pentru eșantioane neînrudite

2.1. Scopul metodei

Metoda de analiză a varianței cu un singur factor este utilizată în acele cazuri în care modificările atributului efectiv sunt studiate sub influența condițiilor în schimbare sau gradațiile oricărui factor. În această versiune a metodei, influența fiecăreia dintre gradațiile factorului este variat eșantion de subiecți de testare. Trebuie să existe cel puțin trei gradații ale factorului. (Pot fi două gradații, dar în acest caz nu vom putea stabili dependențe neliniare și pare mai rezonabil să folosim altele mai simple).

O variantă neparametrică a acestui tip de analiză este testul Kruskal-Wallis H.

Ipoteze

H 0: Diferențele dintre gradele factorilor (condiții diferite) nu sunt mai pronunțate decât diferențele aleatorii în cadrul fiecărui grup.

H 1: Diferențele dintre gradațiile factorilor (condiții diferite) sunt mai pronunțate decât diferențele aleatorii în cadrul fiecărui grup.

2.2. Limitări ale analizei univariate a varianței pentru eșantioanele neînrudite

1. Analiza univariată a varianței necesită cel puțin trei gradații ale factorului și cel puțin două subiecți în fiecare gradație.

2. Trăsătura rezultată trebuie să fie distribuită în mod normal în eșantionul de studiu.

Adevărat, de obicei nu este indicat dacă vorbim despre distribuția unei trăsături în întregul eșantion chestionat sau în acea parte a acestuia care alcătuiește complexul de dispersie.

3. Un exemplu de rezolvare a problemei prin metoda analizei cu un singur factor a varianței pentru eșantioane neînrudite folosind exemplul:

Trei grupuri diferite de șase subiecți au primit liste de zece cuvinte. Cuvintele au fost prezentate primului grup cu o rată scăzută de 1 cuvânt pe 5 secunde, celui de-al doilea grup cu o rată medie de 1 cuvânt pe 2 secunde și celui de-al treilea grup cu o rată mare de 1 cuvânt pe secundă. Performanța de reproducere a fost prevăzută să depindă de viteza de prezentare a cuvintelor. Rezultatele sunt prezentate în tabel. unu.

Numărul de cuvinte reproduse tabelul 1

numărul subiectului

viteza mica

viteza medie

viteza mare

valoare totală

H 0: Diferențe în volumul cuvintelor între grupurile nu sunt mai pronunțate decât diferențele aleatorii interior fiecare grup.

H1: Diferențele în volumul cuvintelor între grupurile sunt mai pronunțate decât diferențele aleatorii interior fiecare grup. Folosind valorile experimentale prezentate în tabel. 1, vom stabili câteva valori care vor fi necesare pentru a calcula criteriul F.

Calculul cantităților principale pentru analiza unidirecțională a varianței este prezentat în tabel:

masa 2

Tabelul 3

Secvență de operații în ANOVA unidirecțional pentru probe deconectate

Folosită frecvent în acest tabel și în tabelele ulterioare, denumirea SS este o abreviere pentru „sumă de pătrate”. Această abreviere este folosită cel mai des în sursele traduse.

SS faptînseamnă variabilitatea trăsăturii, datorită acțiunii factorului studiat;

SS uzual- variabilitatea generală a trăsăturii;

S CA- variabilitate datorată unor factori necontabilizați, variabilitate „aleatorie” sau „reziduală”.

DOMNIȘOARĂ- „pătrat mediu”, sau așteptarea matematică a sumei pătratelor, valoarea medie a SS corespunzătoare.

df - numărul de grade de libertate, pe care, luând în considerare criteriile neparametrice, le-am notat cu litera greacă v.

Concluzie: H 0 este respins. H 1 este acceptat. Diferențele în volumul reproducerii cuvintelor între grupuri sunt mai pronunțate decât diferențele aleatorii în cadrul fiecărui grup (α=0,05). Deci, viteza de prezentare a cuvintelor afectează volumul reproducerii lor.

Un exemplu de rezolvare a problemei în Excel este prezentat mai jos:

Date inițiale:

Folosind comanda: Instrumente->Analiza datelor->Analiza unidirecțională a varianței, obținem următoarele rezultate:

ANOVA este un set de metode statistice menite să testeze ipoteze despre relația dintre anumite caracteristici și factorii studiați care nu au o descriere cantitativă, precum și să stabilească gradul de influență a factorilor și interacțiunea acestora. În literatura de specialitate, este adesea numit ANOVA (de la numele englezesc Analysis of Variations). Această metodă a fost dezvoltată pentru prima dată de R. Fischer în 1925.

Tipuri și criterii pentru analiza varianței

Această metodă este folosită pentru a investiga relația dintre caracteristicile calitative (nominale) și o variabilă cantitativă (continuă). De fapt, testează ipoteza despre egalitatea mediilor aritmetice a mai multor eșantioane. Astfel, poate fi considerat ca un criteriu parametric pentru compararea centrelor mai multor eșantioane simultan. Dacă utilizați această metodă pentru două eșantioane, atunci rezultatele analizei varianței vor fi identice cu rezultatele testului t Student. Cu toate acestea, spre deosebire de alte criterii, acest studiu vă permite să studiați problema mai detaliat.

Analiza varianței în statistici se bazează pe legea: suma abaterilor pătrate ale eșantionului combinat este egală cu suma pătratelor abaterilor intragrup și suma pătratelor abaterilor intergrup. Pentru studiu, testul lui Fisher este utilizat pentru a stabili semnificația diferenței dintre variațiile intergrup și intragrup. Totuși, pentru aceasta, premisele necesare sunt normalitatea distribuției și homoscedasticitatea (egalitatea varianțelor) eșantioanelor. Distingeți între analiza unidimensională (cu un singur factor) a varianței și analiza multivariată (multifactorială). Primul ia în considerare dependența valorii studiate de un atribut, al doilea - de multe simultan și, de asemenea, vă permite să identificați relația dintre ele.

Factori

Factorii sunt numiți circumstanțe controlate care afectează rezultatul final. Nivelul sau metoda sa de prelucrare se numeste valoarea care caracterizeaza manifestarea specifica a acestei afectiuni. Aceste cifre sunt de obicei date pe o scară de măsură nominală sau ordinală. Adesea, valorile de ieșire sunt măsurate pe scale cantitative sau ordinale. Apoi se pune problema grupării datelor de ieșire într-o serie de observații care corespund aproximativ aceleași valori numerice. Dacă numărul de grupuri este prea mare, atunci numărul de observații din ele poate fi insuficient pentru a obține rezultate fiabile. Dacă numărul este luat prea mic, acest lucru poate duce la pierderea caracteristicilor esențiale de influență asupra sistemului. Metoda specifică de grupare a datelor depinde de volumul și natura variației valorilor. Numărul și dimensiunea intervalelor în analiza univariată sunt cel mai adesea determinate de principiul intervalelor egale sau de principiul frecvențelor egale.

Sarcini de analiză a dispersiei

Deci, există cazuri când trebuie să comparați două sau mai multe mostre. Atunci este recomandabil să folosiți analiza varianței. Denumirea metodei indică faptul că concluziile se fac pe baza studiului componentelor varianței. Esența studiului este că modificarea generală a indicatorului este împărțită în componente care corespund acțiunii fiecărui factor individual. Luați în considerare o serie de probleme pe care o analiză tipică a varianței le rezolvă.

Exemplul 1

Atelierul are o serie de mașini-unelte - mașini automate care produc o anumită piesă. Dimensiunea fiecărei piese este o valoare aleatorie, care depinde de setările fiecărei mașini și de abaterile aleatorii care apar în timpul procesului de fabricație a pieselor. Este necesar să se determine din măsurătorile dimensiunilor pieselor dacă mașinile sunt montate în același mod.

Exemplul 2

La fabricarea unui aparat electric se folosesc diverse tipuri de hartie izolatoare: condensator, electrice etc. Aparatul poate fi impregnat cu diverse substante: rasina epoxidica, lac, rasina ML-2 etc. Scurgerile pot fi eliminate sub vid la presiune ridicată, atunci când este încălzită. Poate fi impregnat prin imersare în lac, sub un flux continuu de lac etc. Aparatul electric în ansamblu este turnat cu un anumit compus, dintre care există mai multe opțiuni. Indicatorii de calitate sunt rezistența dielectrică a izolației, temperatura de supraîncălzire a înfășurării în modul de funcționare și o serie de altele. În timpul dezvoltării procesului tehnologic de fabricare a dispozitivelor, este necesar să se determine modul în care fiecare dintre factorii enumerați afectează performanța dispozitivului.

Exemplul 3

Depoul de troleibuze deservește mai multe rute de troleibuz. Aceștia operează troleibuze de diferite tipuri, iar 125 de inspectori colectează tarife. Conducerea depozitului este interesată de întrebarea: cum se compară performanța economică a fiecărui controlor (venit) având în vedere diferitele rute, diferitele tipuri de troleibuze? Cum se determină fezabilitatea economică a lansării troleibuzelor de un anumit tip pe o anumită rută? Cum se stabilesc cerințe rezonabile pentru suma de venituri pe care conducătorul o aduce pe fiecare rută în diferite tipuri de troleibuze?

Sarcina alegerii unei metode este de a obține informații maxime cu privire la impactul asupra rezultatului final al fiecărui factor, de a determina caracteristicile numerice ale unui astfel de impact, fiabilitatea acestora la costuri minime și în cel mai scurt timp posibil. Metodele de analiză a dispersiei permit rezolvarea unor astfel de probleme.

Analiza univariată

Studiul își propune să evalueze amploarea impactului unui anumit caz asupra revizuirii analizate. O altă sarcină a analizei univariate poate fi compararea a două sau mai multe circumstanțe între ele pentru a determina diferența în influența lor asupra reamintirii. Dacă ipoteza nulă este respinsă, atunci următorul pas este cuantificarea și construirea intervalelor de încredere pentru caracteristicile obținute. În cazul în care ipoteza nulă nu poate fi respinsă, ea este de obicei acceptată și se face o concluzie despre natura influenței.

Analiza unidirecțională a varianței poate deveni un analog neparametric al metodei de rang Kruskal-Wallis. A fost dezvoltat de matematicianul american William Kruskal și economistul Wilson Wallis în 1952. Acest test are scopul de a testa ipoteza nulă conform căreia efectele influenței asupra eșantioanelor studiate sunt egale cu valori medii necunoscute, dar egale. În acest caz, numărul de probe trebuie să fie mai mare de două.

Criteriul Jonkhier (Jonkhier-Terpstra) a fost propus independent de matematicianul olandez T. J. Terpstrom în 1952 și de psihologul britanic E. R. Jonkhier în 1954. Este folosit atunci când se știe dinainte că grupurile disponibile de rezultate sunt ordonate după o creștere a influența factorului studiat, care este măsurat pe o scară ordinală.

M - criteriul Bartlett, propus de statisticianul britanic Maurice Stevenson Bartlett în 1937, este folosit pentru a testa ipoteza nulă despre egalitatea varianțelor mai multor populații generale normale din care sunt prelevate eșantioanele studiate, în cazul general având dimensiuni diferite. (numărul fiecărei probe trebuie să fie de cel puțin patru ).

G este testul Cochran, care a fost descoperit de americanul William Gemmel Cochran în 1941. Este folosit pentru a testa ipoteza nulă despre egalitatea varianțelor populațiilor normale pentru eșantioane independente de dimensiuni egale.

Testul Levene neparametric, propus de matematicianul american Howard Levene în 1960, este o alternativă la testul Bartlett în condițiile în care nu există certitudinea că eșantioanele studiate urmează o distribuție normală.

În 1974, statisticienii americani Morton B. Brown și Alan B. Forsyth au propus un test (testul Brown-Forsyth), care este oarecum diferit de testul Levene.

Analiză în două sensuri

Analiza bidirecțională a varianței este utilizată pentru eșantioanele distribuite normal legate. În practică, sunt adesea folosite și tabele complexe ale acestei metode, în special cele în care fiecare celulă conține un set de date (măsurători repetate) corespunzătoare unor valori de nivel fixe. Dacă nu sunt îndeplinite ipotezele necesare pentru aplicarea analizei bidirecționale a varianței, atunci se folosește testul de rang neparametric al lui Friedman (Friedman, Kendall și Smith), elaborat de economistul american Milton Friedman la sfârșitul anului 1930. Acest criteriu nu depinde de tipul de distribuție.

Se presupune doar că distribuția cantităților este aceeași și continuă și că ele însele sunt independente unele de altele. La testarea ipotezei nule, datele de ieșire sunt prezentate sub forma unei matrice dreptunghiulare, în care rândurile corespund nivelurilor factorului B, iar coloanele corespund nivelurilor A. Fiecare celulă a tabelului (blocului) poate fi rezultat al măsurătorilor parametrilor pe un obiect sau pe un grup de obiecte cu valori constante ale nivelurilor ambilor factori. În acest caz, datele corespunzătoare sunt prezentate ca valori medii ale unui anumit parametru pentru toate măsurătorile sau obiectele eșantionului studiat. Pentru a aplica criteriul de ieșire, este necesar să treceți de la rezultatele directe ale măsurătorilor la rangul lor. Clasamentul se realizează pentru fiecare rând separat, adică valorile sunt ordonate pentru fiecare valoare fixă.

Testul Page (L-test), propus de statisticianul american E. B. Page în 1963, este conceput pentru a testa ipoteza nulă. Pentru mostre mari, se utilizează aproximarea Page. Ele, supuse realității ipotezelor nule corespunzătoare, se supun distribuției normale standard. În cazul în care rândurile tabelului sursă au aceleași valori, este necesar să se utilizeze rangurile medii. În acest caz, acuratețea concluziilor va fi cu atât mai proastă, cu atât numărul de astfel de coincidențe va fi mai mare.

Q - Criteriul lui Cochran, propus de V. Cochran în 1937. Este folosit în cazurile în care grupuri de subiecți omogene sunt expuși la mai mult de două influențe și pentru care sunt posibile două opțiuni pentru recenzii - condiționat negativ (0) și condiționat pozitiv (1). ). Ipoteza nulă constă în egalitatea efectelor de influență. Analiza bidirecțională a varianței face posibilă determinarea existenței efectelor de prelucrare, dar nu face posibilă determinarea pentru ce coloane există acest efect. La rezolvarea acestei probleme se folosește metoda ecuațiilor Scheffe multiple pentru probe cuplate.

Analiza multivariată

Problema analizei multivariate a varianței apare atunci când este necesar să se determine influența a două sau mai multe condiții asupra unei anumite variabile aleatoare. Studiul prevede prezența unei variabile aleatoare dependente, măsurată pe o scară de diferență sau rapoarte, și a mai multor variabile independente, fiecare dintre acestea fiind exprimată pe o scară de nume sau într-o scară de rang. Analiza de dispersie a datelor este o ramură destul de dezvoltată a statisticii matematice, care are o mulțime de opțiuni. Conceptul de studiu este comun atât pentru studiile univariate, cât și pentru cele multivariate. Esența sa constă în faptul că varianța totală este împărțită în componente, ceea ce corespunde unei anumite grupări de date. Fiecare grupare de date are propriul său model. Aici vom lua în considerare doar principalele prevederi necesare pentru înțelegerea și utilizarea practică a variantelor sale cele mai utilizate.

Analiza factorială a varianței necesită o atenție deosebită colectării și prezentării datelor de intrare și în special interpretării rezultatelor. Spre deosebire de factorul unic, ale cărui rezultate pot fi plasate condiționat într-o anumită secvență, rezultatele celor doi factori necesită o prezentare mai complexă. O situație și mai dificilă apare atunci când sunt trei, patru sau mai multe circumstanțe. Din acest motiv, modelul include rareori mai mult de trei (patru) condiții. Un exemplu ar fi apariția rezonanței la o anumită valoare a capacității și inductanței cercului electric; manifestarea unei reacții chimice cu un anumit set de elemente din care este construit sistemul; apariția unor efecte anormale în sisteme complexe într-o anumită coincidență de circumstanțe. Prezența interacțiunii poate schimba radical modelul sistemului și poate duce uneori la o regândire a naturii fenomenelor cu care se confruntă experimentatorul.

Analiza multivariată a varianței cu experimente repetate

Datele de măsurare pot fi adesea grupate nu în doi, ci după mai mulți factori. Deci, dacă luăm în considerare analiza de dispersie a duratei de viață a anvelopelor pentru roțile de troleibuz, ținând cont de circumstanțe (producător și traseul pe care sunt utilizate anvelopele), atunci putem evidenția ca o condiție separată sezonul în care se folosesc anvelope (si anume: functionare iarna si vara). Ca urmare, vom avea problema metodei cu trei factori.

În prezența mai multor condiții, abordarea este aceeași ca în analiza bidirecțională. În toate cazurile, modelul încearcă să simplifice. Fenomenul de interacțiune a doi factori nu apare atât de des, iar interacțiunea triplă apare doar în cazuri excepționale. Includeți acele interacțiuni pentru care există informații anterioare și motive întemeiate să le luați în considerare în model. Procesul de izolare a factorilor individuali și luarea în considerare a acestora este relativ simplu. Prin urmare, există adesea dorința de a evidenția mai multe circumstanțe. Nu ar trebui să te lași dus de asta. Cu cât sunt mai multe condiții, cu atât modelul devine mai puțin fiabil și cu atât este mai probabil să facă o eroare. Modelul în sine, care include un număr mare de variabile independente, devine destul de dificil de interpretat și incomod pentru utilizare practică.

Ideea generală a analizei varianței

Analiza varianței în statistici este o metodă de obținere a rezultatelor observațiilor care depind de diverse circumstanțe concurente și de evaluare a influenței acestora. O variabilă controlată care corespunde metodei de influență asupra obiectului de studiu și dobândește o anumită valoare într-o anumită perioadă de timp se numește factor. Ele pot fi calitative și cantitative. Nivelurile condițiilor cantitative dobândesc o anumită valoare la scară numerică. Exemple sunt temperatura, presiunea de presare, cantitatea de substanță. Factorii calitativi sunt diferite substanțe, diferite metode tehnologice, aparate, materiale de umplutură. Nivelurile lor corespund cu scara numelor.

Calitatea include și tipul de material de ambalare, condițiile de păstrare a formei de dozare. De asemenea, este rațional să se includă și gradul de măcinare a materiilor prime, compoziția fracționată a granulelor, care au o valoare cantitativă, dar sunt greu de reglat, dacă se folosește o scară cantitativă. Numărul de factori de calitate depinde de tipul formei de dozare, precum și de proprietățile fizice și tehnologice ale substanțelor medicinale. De exemplu, tabletele pot fi obținute din substanțe cristaline prin compresie directă. În acest caz, este suficient să se efectueze selecția agenților de alunecare și de lubrifiere.

Exemple de factori de calitate pentru diferite tipuri de forme de dozare

  • Tincturi. Compoziția extractantului, tipul extractorului, metoda de preparare a materiei prime, metoda de producție, metoda de filtrare.
  • Extracte (lichid, gros, uscat). Compoziția extractantului, metoda de extracție, tipul instalației, metoda de îndepărtare a extractantului și a substanțelor de balast.
  • Pastile. Compoziția excipienților, materiale de umplutură, dezintegranți, lianți, lubrifianți și lubrifianți. Metoda de obținere a tabletelor, tipul de echipament tehnologic. Tipul de înveliș și componentele sale, formatori de peliculă, pigmenți, coloranți, plastifianți, solvenți.
  • soluții injectabile. Tipul solventului, metoda de filtrare, natura stabilizatorilor și conservanților, condițiile de sterilizare, metoda de umplere a fiolelor.
  • Supozitoare. Compoziția bazei de supozitoare, metoda de obținere a supozitoarelor, umpluturi, ambalare.
  • Unguente. Compoziția bazei, componentele structurale, metoda de preparare a unguentului, tipul de echipament, ambalajul.
  • Capsule. Tipul materialului învelișului, modalitatea de obținere a capsulelor, tipul de plastifiant, conservant, colorant.
  • Linimente. Mod de producere, compoziție, tip de echipament, tip de emulgator.
  • Suspensii. Tip de solvent, tip de stabilizator, metoda de dispersie.

Exemple de factori de calitate și nivelurile acestora studiate în procesul de fabricație a tabletei

  • Praf de copt. Amidon de cartofi, argilă albă, un amestec de bicarbonat de sodiu cu acid citric, carbonat de magneziu bazic.
  • soluție de legare. Apă, pastă de amidon, sirop de zahăr, soluție de metilceluloză, soluție de hidroxipropil metilceluloză, soluție de polivinilpirolidonă, soluție de alcool polivinilic.
  • substanță de alunecare. Aerosil, amidon, talc.
  • Material de umplutură. Zahăr, glucoză, lactoză, clorură de sodiu, fosfat de calciu.
  • Lubrifiant. Acid stearic, polietilen glicol, parafină.

Modele de analiză a dispersiei în studiul nivelului de competitivitate a statului

Unul dintre cele mai importante criterii de evaluare a stării statului, care este utilizat pentru aprecierea nivelului de bunăstare și dezvoltare socio-economică a acestuia, este competitivitatea, adică un set de proprietăți inerente economiei naționale care determină capacitatea de statul să concureze cu alte țări. După ce a determinat locul și rolul statului pe piața mondială, este posibil să se stabilească o strategie clară pentru asigurarea securității economice la scară internațională, deoarece este cheia relațiilor pozitive dintre Rusia și toți actorii de pe piața mondială: investitorii , creditori, guverne de stat.

Pentru a compara nivelul de competitivitate al statelor, țările sunt clasate folosind indici complecși, care includ diverși indicatori ponderați. Acești indici se bazează pe factori cheie care afectează situația economică, politică etc. Complexul de modele pentru studierea competitivității statului prevede utilizarea metodelor de analiză statistică multidimensională (în special, aceasta este o analiză a varianței (statistică), modelare econometrică, luare a deciziilor) și include următoarele etape principale:

  1. Formarea unui sistem de indicatori-indicatori.
  2. Evaluarea şi prognozarea indicatorilor competitivităţii statului.
  3. Comparația indicatorilor-indicatori ai competitivității statelor.

Și acum să luăm în considerare conținutul modelelor fiecăreia dintre etapele acestui complex.

La prima etapă folosind metode de studiu expert, se formează un set rezonabil de indicatori-indicatori economici pentru evaluarea competitivității statului, ținând cont de specificul dezvoltării acestuia pe baza evaluărilor internaționale și a datelor de la departamentele de statistică, care reflectă starea sistemului în ansamblu și procesele sale. Alegerea acestor indicatori este justificată de necesitatea selectării celor care mai pe deplin, din punct de vedere al practicii, permit determinarea nivelului statului, a atractivității sale investiționale și a posibilității de localizare relativă a amenințărilor potențiale și reale existente.

Principalii indicatori-indicatori ai sistemelor internaționale de rating sunt indicii:

  1. Competitivitate globală (GCC).
  2. Libertatea economică (IES).
  3. Dezvoltarea umană (IDU).
  4. Percepția corupției (IPC).
  5. Amenințări interne și externe (IVZZ).
  6. Potenţial de influenţă internaţională (IPIP).

Faza a doua prevede evaluarea și prognozarea indicatorilor competitivității statului conform ratingurilor internaționale pentru cele 139 de state ale lumii studiate.

A treia etapă prevede o comparație a condițiilor de competitivitate a statelor folosind metodele de corelare și analiză de regresie.

Cu ajutorul rezultatelor studiului, se poate determina natura proceselor în general și pentru componentele individuale ale competitivității statului; testați ipoteza despre influența factorilor și relația lor la nivelul de semnificație corespunzător.

Implementarea setului de modele propus va permite nu numai evaluarea situației actuale a nivelului de competitivitate și atractivitate investițională a statelor, ci și analiza deficiențelor managementului, prevenirea erorilor de decizii greșite și prevenirea dezvoltării unei crize. în statul.