Факторный и дисперсионный анализ в Excel с автоматизацией подсчетов. Дисперсионный анализ

Предположим, что на автоматической линии несколько станков параллельно выполняют одинаковую операцию. Для правильного планирования последующей обработки важно знать, насколько однотипны средние размеры деталей, получаемые на параллельно работающих станках. Здесь имеет место лишь один фактор, влияющий на размер деталей, это станки, на которых они изготовляются. Необходимо выяснить, насколько существенно влияние этого фактора на размеры деталей. Предположим, что совокупности размеров деталей, изготовленных на каждом станке, имеют нормальное распределение и равные дисперсии.

Имеем т станков, следовательно, т совокупностей или уровней, на которых произведено n 1 , n 2 ,..., п т наблюдений. Для простоты рассуждений предположим, что n 1 =n 2 =…= п т. Размеры деталей, составляющие n i наблюдений на i -м уровне, обозначим х i 1 ,х i 2 ,..., x in . Тогда все наблюдения можно представить в виде таблицы, которая называется матрицей наблюдений (табл. 3.1).

Таблица 3.1

Уровни Результаты наблюдений
1 2 j n
x 11 x 12 x 1 j x 1 n
x 21 x 22 x 2 j x 2 n
x 31 x 32 x 3 j x 3 n
i x i1 x i2 x i j x i n
m x m1 x m2 x mj x mn

Будем полагать, что для i -го уровня п наблюдений имеют среднюю β i , равную сумме общей средней µ и вариации ее, обусловленной i -м уровнем фактора, т.е. β i = µ + γ i . Тогда одно наблюдение можно представить в следующем виде:

x i j = µ + γ i . +ε ij = β i +ε ij (3.1)

где µ - общая средняя; γ i - эффект, обусловленный i -м уровнем фактора; ε ij - вариация результатов внутри отдельного уровня.

Член ε ij характеризует влияние всех не учтенных моделью (3.1) факторов. Согласно обшей задаче дисперсионного анализа нужно оценить существенность влияния фактора γ на размеры деталей. Общую вариацию переменной x i j можно разложить на части, одна из которых характеризует влияние фактора γ, другая - влияние неучтенных факторов. Для этого необходимо найти оценку общей средней µ и оценки средних по уровням β i . Очевидно, что оценкой β является средняя арифметическая п наблюдений i-го уровня, т.е.

Звездочка в индексе при х означает, что наблюдения фиксированы на i-м уровне. Средняя арифметическая всей совокупности наблюдений является оценкой общей средней µ, т.е.

Найдем сумму квадратов отклонений x i j от , т.е.

Представим ее в виде (3.2)

Причем =

Но = 0, так как это есть сумма отклонений переменных одной совокупности от средней арифметической этой же совокупности, т.е. вся сумма равна нулю. Второй член суммы (3.2) запишем в виде:



Или

Слагаемое является суммой квадратов разностей между средними уровней и средней всей совокупности наблюдений. Эта сумма называется суммой квадратов отклонений между группами и характеризует расхождение между уровнями. Величину , называют также рассеиванием по факторам, т.е. рассеиванием за счет исследуемого фактора.

Слагаемое является суммой квадратов разностей между отдельными наблюдениями и средней i-го уровня. Эта сумма назы­вается суммой квадратов отклонений внутри группы и характеризует расхождение между наблюдениями i-го уровня. Величину называют также остаточным рассеиванием, т.е. рассеиванием за счет неучтенных факторов.

Величину называется общей или полной суммой квадратов отклонений отдельных наблюдений от общей средней .

Зная суммы квадратов SS, SS 1 и SS 2 , можно оценить несмещенные оценки соответствующих дисперсий - общей, межгрупповой и внутригрупповой (таблица 3.2).

Если влияние всех уровней фактора γ одинаково, то и - оценки общей дисперсии.

Тогда для оценки существенности влияния фактора γ достаточно проверить нулевую гипотезу H 0: = .

Для этого вычисляют критерий Фишера F B = , с числом степеней свободы k 1 = т - 1 и k 2 = т(п - 1). Затем по таблице F-распределения (см. таблицу распределения критерия Фишера) для уровня значимости α находят критическое значение F кр.

Таблица 3.2

Если F B > F кр то нулевая гипотеза отвергается и делается заключение о существенном влиянии фактора γ.

При F B < F кр нет основания отвергать нулевую гипотезу и можно считать, что влияние фактора γ несущественно.



Сравнивая межгрупповую и остаточную дисперсии, по величине их отношения судят, насколько сильно проявляется влияние факторов.

Пример 3.1. Имеется четыре партии тканей для спецодежды. Из каждой партии отобрано по пять образцов и проведены испытания на определение величины разрывной нагрузки. Результаты испытаний приведены в табл. 3.3.

Таблица 3.3

Номер партии, т

Требуется выяснить, существенно ли влияние различных партий сырья на величину разрывной нагрузки.

Решение.

В данном случае т = 4, п = 5. Среднюю арифметическую каждой строки вычисляем по формуле

Имеем: =(200+140+170+145+165)/5=164; =170; =202; = 164.

Найдем среднюю арифметическую всей совокупности:

Вычислим величины, необходимые для построения табл. 3.4:

· сумму квадратов отклонений между группами SS 1 , с k 1 =т –1=

4-1=3 степенями свободы:

· сумму квадратов отклонений внутри группы SS 2 с k 2 = тп – т= =20-4=16 степенями свободы:

· полную сумму квадратов SS c k=mn-1=20-1=19 степенями свободы:

По найденным значениям оценим дисперсию, по формулам (табл. 3.2) составим (табл. 3.4) для рассматриваемого примера.

Таблица 3.4

Проведем статистический анализ по критерию Фишера. Вычислим F B = =(4980 1/3)/(7270 1/16) =1660/454,4= 3,65.

По таблице F-распределения (см. приложения) находим значение F Kp при k 2 = 16 и k 1 = 3 степенях свободы и уровне значимости α = 0,01. Имеем F Kp = 5,29.

Вычисленное значение F B меньше табличного, поэтому можно утверждать, что нулевая гипотеза не отвергается, а это значит, что различие между тканями в партиях не влияет на величину разрывной нагрузки.

В пакете Анализ данных инструмент Однофакторный дисперсионный анализ используется для проверки гипотезы о сходстве средних значений двух или более выборок, принадлежащих одной и той же генеральной совокупности. Рассмотрим работу пакета для проведения однофакторного дисперсионного анализа.

Решим пример 3.1, используя инструмент Однофакторный дисперсионный анализ.

) предназначен для сравнения исключительно двух совокупностей. Однако часто он неверно используется для попарного сравнения большего количества групп (рис. 1), что вызывает т.н. эффект множественных сравнений (англ. multiple comparisons; Гланц 1999, с. 101-104). Об этом эффекте и о том, как с ним бороться, мы поговорим позднее. В этом же сообщении я опишу принципы однофакторного дисперсионного анализа , как раз предназначенного для одновременного сравнения средних значений двух и более групп. Принципы дисперсионного анализа (англ. an alysis o f va riance , ANOVA) были разработаны в 1920-х гг. сэром Рональдом Эйлмером Фишером (англ. Ronald Aylmer Fisher ) - "гением, едва не в одиночку заложившим основы современной статистики " (Hald 1998).

Может возникнуть вопрос: почему метод, используемый для сравнения средних значений, называется дисперсионным анализом? Все дело в том, что при установлении разницы между средними значениями мы в действительности сравниваем дисперсии анализируемых совокупностей. Однако обо всем по порядку...

Постановка задачи

Рассмотренный ниже пример заимствован из книги Maindonald & Braun (2010). Имеются данные о весе томатов (все растение целиком; weight , в кг), которые выращивали в течение 2 месяцев при трех разных экспериментальных условиях (trt , от treatment ) - на воде (water ), в среде с добавлением удобрения (nutrient ), а также в среде с добавлением удобрения и гербицида 2,4-D (nutrient+24D ):

# Создадим таблицу с данными: tomato <- data.frame (weight= c (1.5 , 1.9 , 1.3 , 1.5 , 2.4 , 1.5 , # water 1.5 , 1.2 , 1.2 , 2.1 , 2.9 , 1.6 , # nutrient 1.9 , 1.6 , 0.8 , 1.15 , 0.9 , 1.6 ) , # nutrient+24D trt = rep (c ("Water" , "Nutrient" , "Nutrient+24D" ) , c (6 , 6 , 6 ) ) ) # Просмотрим результат: weight weight trt 1 1.50 Water 2 1.90 Water 3 1.30 Water 4 1.50 Water 5 2.40 Water 6 1.50 Water 7 1.50 Nutrient 8 1.20 Nutrient 9 1.20 Nutrient 10 2.10 Nutrient 11 2.90 Nutrient 12 1.60 Nutrient 13 1.90 Nutrient+24D 14 1.60 Nutrient+24D 15 0.80 Nutrient+24D 16 1.15 Nutrient+24D 17 0.90 Nutrient+24D 18 1.60 Nutrient+24D


Переменная trt представляет собой фактор с тремя уровнями. Для более наглядного сравнения экспериментальных условий в последующем, сделаем уровень "water " базовым (англ. reference ), т.е. уровнем, с которым R будет сравнивать все остальные уровни. Это можно сделать при помощи функции relevel() :


Чтобы лучше понять свойства имеющихся данных, визуализируем их при помощи наблюдаемые различия между групповыми средними несущественны и вызваны влиянием случайных факторов (т.е. в действительности все полученные измерения веса растений происходят из одной нормально распределенной генеральной совокупности):

Подчеркнем еще раз, что рассматриваемый пример соответствует случаю однофакторного дисперсионного анализа: изучается действие одного фактора - условий выращивания (с тремя уровнями - Water , Nutrient и Nutrient+24D ) на интересующую нас переменную-отклик - вес растений.

К сожалению, исследователь почти никогда не имеет возможности изучить всю генеральную совокупность. Как же нам тогда узнать, верна ли приведенная выше нулевая гипотеза, располагая только выборочными данными? Мы можем сформулировать этот вопрос иначе: какова вероятность получить наблюдаемые различия между групповыми средними, извлекая случайные выборки из одной нормально распределенной генеральной совокупности ? Для ответа на этот вопрос на нам потребуется статистический критерий, который количественно характеризовал бы величину различий между сравниваемыми группами.

Задание . Студентов 1-го курса опрашивали с целью выявления занятий, которым они посвящают свое свободное время. Проверьте, различаются ли распределение вербальных и невербальных предпочтений студентов.

Решение проводим с использованием калькулятора .
Находим групповые средние:

N П 1 П 2
1 12 17
2 18 19
3 23 25
4 10 7
5 15 17
x ср 15.6 17

Обозначим р - количество уровней фактора (р=2). Число измерений на каждом уровне одинаково и равно q=5.
В последней строке помещены групповые средние для каждого уровня фактора.
Общую среднюю можно получить как среднее арифметическое групповых средних:
(1)
На разброс групповых средних процента отказа относительно общей средней влияют как изменения уровня рассматриваемого фактора, так и случайные факторы.
Для того чтобы учесть влияние данного фактора, общая выборочная дисперсия разбивается на две части, первая из которых называется факторной S 2 ф, а вторая - остаточной S 2 ост.
С целью учета этих составляющих вначале рассчитывается общая сумма квадратов отклонений вариант от общей средней:

и факторная сумма квадратов отклонений групповых средних от общей средней, которая и характеризует влияние данного фактора:

Последнее выражение получено путем замены каждой варианты в выражении R общ групповой средней для данного фактора.
Остаточная сумма квадратов отклонений получается как разность:
R ост = R общ - R ф
Для определения общей выборочной дисперсии необходимо R общ разделить на число измерений pq:

а для получения несмещенной общей выборочной дисперсии это выражение нужно умножить на pq/(pq-1):

Соответственно, для несмещенной факторной выборочной дисперсии:

где p-1 - число степеней свободы несмещенной факторной выборочной дисперсии.
С целью оценки влияния фактора на изменения рассматриваемого параметра рассчитывается величина:

Так как отношение двух выборочных дисперсий S 2 ф и S 2 ост распределено по закону Фишера-Снедекора, то полученное значение f набл сравнивают со значением функции распределения

в критической точке f кр, соответствующей выбранному уровню значимости a.
Если f набл >f кр, то фактор оказывает существенное воздействие и его следует учитывать, в противном случае он оказывает незначительное влияние, которым можно пренебречь.
Для расчета R набл и R ф могут быть использованы также формулы:
(4)
(5)
Находим общую среднюю по формуле (1):
Для расчета Rобщ по формуле (4) составляем таблицу 2 квадратов вариант:
N П 2 1 П 2 2
1 144 289
2 324 361
3 529 625
4 100 49
5 225 289
1322 1613

Общая средняя вычисляется по формуле (1):

R общ = 1322 + 1613 - 5 2 16.3 2 = 278.1
Находим R ф по формуле (5):
R ф = 5(15.6 2 + 17 2) - 2 16.3 2 = 4.9
Получаем R ост: R ост = R общ - R ф = 278.1 - 4.9 = 273.2
Определяем факторную и остаточную дисперсии :


Если средние значения случайной величины, вычисленные по отдельным выборкам одинаковы, то оценки факторной и остаточной дисперсий являются несмещенными оценками генеральной дисперсии и различаются несущественно.
Тогда сопоставление оценок этих дисперсий по критерию Фишера должно показать, что нулевую гипотезу о равенстве факторной и остаточной дисперсий отвергнуть нет оснований.
Оценка факторной дисперсии меньше оценки остаточной дисперсии, поэтому можно сразу утверждать справедливость нулевой гипотезы о равенстве математических ожиданий по слоям выборки.
Иначе говоря, в данном примере фактор Ф не оказывает существенного влияния на случайную величину.
Проверим нулевую гипотезу H 0: равенство средних значений х.
Находим f набл

Для уровня значимости α=0.05, чисел степеней свободы 1 и 8 находим f кр из таблицы распределения Фишера-Снедекора .
f кр (0.05; 1; 8) = 5.32
В связи с тем, что f набл < f кр, нулевую гипотезу о существенном влиянии фактора на результаты экспериментов отклоняем.
Другим словами, распределение вербальных и невербальных предпочтений студентов различаются.

Задание . На заводе установлено четыре линии по выпуску облицовочной плитки. С каждой линии случайным образом в течение смены отобрано по 10 плиток и сделаны замеры их толщины (мм). Отклонения от номинального размера приведены в таблице. Требуется на уровне значимости a = 0,05 установить наличие зависимости выпуска качественных плиток от линии выпуска (фактор A).

Задание . На уровне значимости a = 0,05 исследовать влияние цвета краски на срок службы покрытия.

Пример №1 . Произведено 13 испытаний, из них – 4 на первом уровне фактора, 4 – на втором, 3 – на третьем и 2 на четвертом. Методом дисперсионного анализа при уровне значимости 0,05 проверить нулевую гипотезу о равенстве групповых средних. Предполагается, что выборки извлечены из нормальных совокупностей с одинаковыми дисперсиями. Результаты испытаний приведены в таблице.

Решение :
Находим групповые средние:

N П 1 П 2 П 3 П 4
1 1.38 1.41 1.32 1.31
2 1.38 1.42 1.33 1.33
3 1.42 1.44 1.34 -
4 1.42 1.45 - -
5.6 5.72 3.99 2.64
x ср 1.4 1.43 1.33 1.32

Обозначим р - количество уровней фактора (р=4). Число измерений на каждом уровне равно: 4,4,3,2
В последней строке помещены групповые средние для каждого уровня фактора.
Общая средняя вычисляется по формуле:

Для расчета Sобщ по формуле (4) составляем таблицу 2 квадратов вариант:

N П 2 1 П 2 2 П 2 3 П 2 4
1 1.9 1.99 1.74 1.72
2 1.9 2.02 1.77 1.77
3 2.02 2.07 1.8 -
4 2.02 2.1 - -
7.84 8.18 5.31 3.49

Общую сумму квадратов отклонений находят по формуле:


Находим S ф по формуле:


Получаем S ост: S ост = S общ - S ф = 0.0293 - 0.0263 = 0.003
Определяем факторную дисперсию:

и остаточную дисперсию:

Если средние значения случайной величины, вычисленные по отдельным выборкам одинаковы, то оценки факторной и остаточной дисперсий являются несмещенными оценками генеральной дисперсии и различаются несущественно.
Тогда сопоставление оценок этих дисперсий по критерию Фишера должно показать, что нулевую гипотезу о равенстве факторной и остаточной дисперсий отвергнуть нет оснований.
Оценка факторной дисперсии больше оценки остаточной дисперсии, поэтому можно сразу утверждать не справедливость нулевой гипотезы о равенстве математических ожиданий по слоям выборки.
Иначе говоря, в данном примере фактор Ф оказывает существенное влияния на случайную величину.
Проверим нулевую гипотезу H 0: равенство средних значений х.
Находим f набл

Для уровня значимости α=0.05, чисел степеней свободы 3 и 12 находим f кр из таблицы распределения Фишера-Снедекора.
f кр (0.05; 3; 12) = 3.49
В связи с тем, что f набл > f кр, нулевую гипотезу о существенном влиянии фактора на результаты экспериментов принимаем (нулевую гипотезу о равенстве групповых средних отвергаем). Другими словами, групповые средние в целом различаются значимо.

Пример №2 . В школе 5 шестых классов. Психологу ставится задача, определить, одинаковый ли средний уровень ситуативной тревожности в классах. Для этого были приведены в таблице. Проверить уровень значимости α=0.05 предположение, что средняя ситуативная тревожность в классах не различается.

Пример №3 . Для изучения величины X произведено 4 испытания на каждом из пяти уровней фактора F. Результаты испытаний приведены в таблице. Выяснить, существенно ли влияние фактора F на величину X. Принять α = 0.05. Предполагается, что выборки извлечены из нормальных совокупностей с одинаковыми дисперсиями.

Пример №4 . Предположим, что в педагогическом эксперименте участвовали три группы студентов по 10 человек в каждой. В группах применили различные методы обучения: в первой - традиционный (F 1), во второй - основанный на компьютерных технологиях (F 2), в третьей - метод, широко использующий задания для самостоятельной работы (F 3). Знания оценивались по десятибалльной системе.
Требуется обработать полученные данные об экзаменах и сделать заключение о том, значимо ли влияние метода преподавания, приняв за уровень значимости α=0.05.
Результаты экзаменов заданы таблицей, F j - уровень фактора x ij - оценка i-го учащегося обучающегося по методике F j .

Уровень фактора

Пример №5 . Показаны результаты конкурсного сортоиспытания культур (урожайность в ц.с га). Каждый сорт испытывался на четырех участках. Методом дисперсионного анализа изучите влияние сорта на урожайность. Установите существенность влияния фактора (долю межгрупповой вариации в общей вариации) и значимость результатов опыта при уровне значимости 0,05.
Урожайность на сортоиспытательных участках

Сорт Урожайность по повторностям ц. с га
1 2 3 4
1
2
3
42,4
52,5
52,3
37,4
50,1
53,0
40,7
53,8
51,4
38,2
50,7
53,6

Дисперсионный анализ

1. Понятие дисперсионного анализа

Дисперсионный анализ -это анализ изменчивости признака под влиянием каких-либо контролируемых переменных факторов. В зарубежной литературе дисперсионный анализ часто обозначается как ANOVA, что переводится как анализ вариативности (Analysis of Variance).

Задача дисперсионного анализа состоит в том, чтобы из общей вариативности признака вычленить вариативность иного рода:

а) вариативность обусловленную действием каждой из исследуемых независимых переменных;

б) вариативность, обусловленную взаимодействием исследуемых независимых переменных;

в) случайную вариативность, обусловленную всеми другими неизвестными переменными.

Вариативность, обусловленная действием исследуемых переменных и их взаимодействием, соотносится со случайной вариативностью. Показателем этого соотношения является критерий F Фишера.

В формулу расчета критерия F входят оценки дисперсий, то есть параметров распределения признака, поэтому критерий F является параметрическим критерием.

Чем в большей степени вариативность признака обусловлена исследуемыми переменными (факторами) или их взаимодействием, тем выше эмпирические значения критерия .

Нулевая гипотеза в дисперсионном анализе будет гласить, что средние величины исследуемого результативного признака во всех гра­дациях одинаковы.

Альтернативная гипотеза будет утверждать, что средние вели­чины результативного признака в разных градациях исследуемого фак­тора различны.

Дисперсионный анализ позволяет нам констатировать изменение признака, но при этом не указывает направление этих изменений.

начнем рассмотрение дисперсионного анализа с простей­шего случая, когда исследуется действие только одной переменной (одного фактора).

2. Однофакторный дисперсионный анализ для несвязан­ных выборок

2.1. Назначение метода

Метод однофакторного дисперсионного анализа применяется в тех случаях, когда исследуются изменения результативного признака под влиянием изменяющихся условий или градаций какого-либо фактора. В данном варианте метода влиянию каждой из градаций фактора подвер­гаются разные выборки испытуемых. Градаций фактора должно быть не менее трех. (Градаций может быть и две, но в этом случае мы не сможем установить нели­нейных зависимостей и более разумным представляется использование более про­стых).

Непараметрическим вариантом этого вида анализа является критерий Н Крускала-Уоллиса.

Гипотезы

H 0: Различия между градациями фактора (разными условиями) являются не более выраженными, чем случайные различия внутри каждой группы.

H 1: Различия между градациями фактора (разными условиями) являются более выраженными, чем случайные различия внутри каждой группы.

2.2. Ограничения метода однофакторного дисперсионного анали­за для несвязанных выборок

1. Однофакторный дисперсионный анализ требует не менее трех града­ций фактора и не менее двух испытуемых в каждой градации.

2. Результативный признак должен быть нормально распределен в ис­следуемой выборке.

Правда, обычно не указывается, идет ли речь о распределении признака во всей обследованной выборке или в той ее части, которая составляет дисперсионный комплекс.

3. Пример решения задачи методом однофакторного дисперсионного анализа для несвязанных выборок на примере:

Три различные группы из шести испытуемых получили списки из десяти слов. Первой группе слова предъявлялись с низкой скоростью -1 слово в 5 секунд, второй группе со средней скоростью - 1 слово в 2 секунды, и третьей группе с большой скоростью - 1 слово в секунду. Было предсказано, что показатели воспроизведения будут зависеть от скорости предъявления слов. Результаты представлены в Табл. 1.

Количество воспроизведенных слов Таблица 1

№ испытуемого

низкая скорость

средняя скорость

высокая скорость

Общая сумма

H 0: Различия в объеме воспроизведения слов между группами являются не более выраженными, чем случайные различия внутри каждой группы.

H 1: Различия в объеме воспроизведения слов между группами являются более выраженными, чем случайные различия внутри каждой группы. Используя экспериментальные значения, представленные в Табл. 1, установим некоторые величины, которые будут необходимы для расчета критерия F.

Расчет основных величин для однофакторного дисперсионного анализа представим в таблице:

Таблица 2

Таблица 3

Последовательность операций в однофакторном дисперсионном анализе для несвязанных выборок

Часто встречающееся в этой и последующих таблицах обозначе­ние SS - сокращение от "суммы квадратов" (sum of squares). Это со­кращение чаще всего используется в переводных источниках.

SS факт означает вариативность признака, обусловленную действи­ем исследуемого фактора;

SS общ - общую вариативность признака;

S CA -вариативность, обусловленную неучтенными факторами, "случайную" или "остаточную" вариативность.

MS - "средний квадрат", или математическое ожидание суммы квадратов, усредненная величина соответствующих SS.

df - число степеней свободы, которое при рассмотрении непара­метрических критериев мы обозначили греческой буквой v .

Вывод: H 0 отклоняется. Принимается H 1 . Различия в объеме воспроизведения слов между группами являются более выраженными, чем случайные различия внутри каждой группы (α=0,05). Итак, скорость предъявления слов влияет на объем их воспроизведения.

Пример решения задачи в Excel представлен ниже:

Исходные данные:

Используя команду: Сервис->Анализ данных->Однофакторный дисперсионный анализ, получим следующие результаты:

Чтобы проанализировать изменчивость признака под воздействием контролируемых переменных, применяется дисперсионный метод.

Для изучения связи между значениями – факторный метод. Рассмотрим подробнее аналитические инструменты: факторный, дисперсионный и двухфакторный дисперсионный метод оценки изменчивости.

Дисперсионный анализ в Excel

Условно цель дисперсионного метода можно сформулировать так: вычленить из общей вариативности параметра 3 частные вариативности:

  • 1 – определенную действием каждого из изучаемых значений;
  • 2 – продиктованную взаимосвязью между исследуемыми значениями;
  • 3 – случайную, продиктованную всеми неучтенными обстоятельствами.

В программе Microsoft Excel дисперсионный анализ можно выполнить с помощью инструмента «Анализ данных» (вкладка «Данные» - «Анализ»). Это надстройка табличного процессора. Если надстройка недоступна, нужно открыть «Параметры Excel» и включить настройку для анализа .

Работа начинается с оформления таблицы. Правила:

  1. В каждом столбце должны быть значения одного исследуемого фактора.
  2. Столбцы расположить по возрастанию/убыванию величины исследуемого параметра.

Рассмотрим дисперсионный анализ в Excel на примере.

Психолог фирмы проанализировал с помощью специальной методики стратегии поведения сотрудников в конфликтной ситуации. Предполагается, что на поведение влияет уровень образования (1 – среднее, 2 – среднее специальное, 3 – высшее).

Внесем данные в таблицу Excel:


Значимый параметр залит желтым цветом. Так как Р-Значение между группами больше 1, критерий Фишера нельзя считать значимым. Следовательно, поведение в конфликтной ситуации не зависит от уровня образования.



Факторный анализ в Excel: пример

Факторным называют многомерный анализ взаимосвязей между значениями переменных. С помощью данного метода можно решить важнейшие задачи:

  • всесторонне описать измеряемый объект (причем емко, компактно);
  • выявить скрытые переменные значения, определяющие наличие линейных статистических корреляций;
  • классифицировать переменные (определить взаимосвязи между ними);
  • сократить число необходимых переменных.

Рассмотрим на примере проведение факторного анализа. Допустим, нам известны продажи каких-либо товаров за последние 4 месяца. Необходимо проанализировать, какие наименования пользуются спросом, а какие нет.



Теперь наглядно видно, продажи какого товара дают основной рост.

Двухфакторный дисперсионный анализ в Excel

Показывает, как влияет два фактора на изменение значения случайной величины. Рассмотрим двухфакторный дисперсионный анализ в Excel на примере.

Задача. Группе мужчин и женщин предъявляли звук разной громкости: 1 – 10 дБ, 2 – 30 дБ, 3 – 50 дБ. Время ответа фиксировали в миллисекундах. Необходимо определить, влияет ли пол на реакцию; влияет ли громкость на реакцию.