В практике биологических исследований часто бывает необходимо проверить ту или иную гипотезу, т. е. выяснить, насколько полученный экспериментатором фактический материал подтверждает теоретическое предположение, насколько анализируемые данные совпадают с теоретически ожидаемыми. Возникает задача статистической оценки разницы между фактическими данными и теоретическим ожиданием, установления того, в каких случаях и с какой степенью вероятности можно считать эту разницу достоверной и, наоборот, когда ее следует считать несущественной, незначимой, находящейся в пределах случайности. В последнем случае сохраняется гипотеза, на основе которой рассчитаны теоретически ожидаемые данные или показатели. Таким вариационно-статистическим приемом проверки гипотезы служит метод хи-квадрат (χ 2). Этот показатель часто называют «критерием соответствия» или «критерием согласия» Пирсона. С его помощью можно с той или иной вероятностью судить о степени соответствия эмпирически полученных данных теоретически ожидаемым.
С формальных позиций сравниваются два вариационных ряда, две совокупности: одна – эмпирическое распределение, другая представляет собой выборку с теми же параметрами (n , M , S и др.), что и эмпирическая, но ее частотное распределение построено в точном соответствии с выбранным теоретическим законом (нормальным, Пуассона, биномиальным и др.), которому предположительно подчиняется поведение изучаемой случайной величины.
В общем виде формула критерия соответствия может быть записана следующим образом:
где a – фактическая частота наблюдений,
A – теоретически ожидаемая частота для данного класса.
Нулевая гипотеза предполагает, что достоверных различий между сравниваемыми распределениями нет. Для оценки существенности этих различий следует обратиться к специальной таблице критических значений хи-квадрат (табл. 9П ) и, сравнив вычисленную величину χ 2 с табличной, решить, достоверно или не достоверно отклоняется эмпирическое распределение от теоретического. Тем самым гипотеза об отсутствии этих различий будет либо опровергнута, либо оставлена в силе. Если вычисленная величина χ 2 равна или превышает табличную χ ² (α , df ) , решают, что эмпирическое распределение от теоретического отличается достоверно. Тем самым гипотеза об отсутствии этих различий будет опровергнута. Если же χ ² < χ ² (α , df ) , нулевая гипотеза остается в силе. Обычно принято считать допустимым уровень значимости α = 0.05, т. к. в этом случае остается только 5% шансов, что нулевая гипотеза правильна и, следовательно, есть достаточно оснований (95%), чтобы от нее отказаться.
Определенную проблему составляет правильное определение числа степеней свободы (df ), для которых из таблицы берут значения критерия. Для определения числа степеней свободы из общего числа классов k нужно вычесть число ограничений (т. е. число параметров, использованных для расчета теоретических частот).
В зависимости от типа распределения изучаемого признака формула для расчета числа степеней свободы будет меняться. Для альтернативного распределения (k = 2) в расчетах участвует только один параметр (объем выборки), следовательно, число степеней свободы составляет df = k −1=2−1=1. Для полиномиального распределения формула аналогична: df = k −1. Для проверки соответствия вариационного ряда распределению Пуассона используются уже два параметра – объем выборки и среднее значение (численно совпадающее с дисперсией); число степеней свободы df = k −2. При проверке соответствия эмпирического распределения вариант нормальному или биномиальному закону число степеней свободы берется как число фактических классов минус три условия построения рядов – объем выборки, средняя и дисперсия, df = k −3. Сразу стоит отметить, что критерий χ² работает только для выборок объемом не менее 25 вариант , а частоты отдельных классов должны быть не ниже 4 .
Вначале проиллюстрируем применение критерия хи-квадрат на примере анализа альтернативной изменчивости . В одном из опытов по изучению наследственности у томатов было обнаружено 3629 красных и 1176 желтых плодов. Теоретическое соотношение частот при расщеплении признаков во втором гибридном поколении должно быть 3:1 (75% к 25%). Выполняется ли оно? Иными словами, взята ли данная выборка из той генеральной совокупности, в которой соотношение частот 3:1 или 0.75:0.25?
Сформируем таблицу (табл. 4), заполнив значениями эмпирических частот и результатами расчета теоретических частот по формуле:
А = n∙p,
где p – теоретические частости (доли вариант данного типа),
n – объем выборки.
Например, A 2 = n∙p 2 = 4805∙0.25 = 1201.25 ≈ 1201.
Критерий χ 2 Пирсона – это непараметрический метод, который позволяет оценить значимость различий между фактическим (выявленным в результате исследования) количеством исходов или качественных характеристик выборки, попадающих в каждую категорию, и теоретическим количеством, которое можно ожидать в изучаемых группах при справедливости нулевой гипотезы. Выражаясь проще, метод позволяет оценить статистическую значимость различий двух или нескольких относительных показателей (частот, долей).
1. История разработки критерия χ 2
Критерий хи-квадрат для анализа таблиц сопряженности был разработан и предложен в 1900 году английским математиком, статистиком, биологом и философом, основателем математической статистики и одним из основоположников биометрики Карлом Пирсоном (1857-1936).
2. Для чего используется критерий χ 2 Пирсона?
Критерий хи-квадрат может применяться при анализе таблиц сопряженности , содержащих сведения о частоте исходов в зависимости от наличия фактора риска. Например, четырехпольная таблица сопряженности выглядит следующим образом:
Исход есть (1) | Исхода нет (0) | Всего | |
Фактор риска есть (1) | A | B | A + B |
Фактор риска отсутствует (0) | C | D | C + D |
Всего | A + C | B + D | A + B + C + D |
Как заполнить такую таблицу сопряженности? Рассмотрим небольшой пример.
Проводится исследование влияния курения на риск развития артериальной гипертонии. Для этого были отобраны две группы исследуемых - в первую вошли 70 человек, ежедневно выкуривающих не менее 1 пачки сигарет, во вторую - 80 некурящих такого же возраста. В первой группе у 40 человек отмечалось повышенное артериальное давление. Во второй - артериальная гипертония наблюдалась у 32 человек. Соответственно, нормальное артериальное давление в группе курильщиков было у 30 человек (70 - 40 = 30) а в группе некурящих - у 48 (80 - 32 = 48).
Заполняем исходными данными четырехпольную таблицу сопряженности:
В полученной таблице сопряженности каждая строчка соответствует определенной группе исследуемых. Столбцы - показывают число лиц с артериальной гипертонией или с нормальным артериальным давлением.
Задача, которая ставится перед исследователем: имеются ли статистически значимые различия между частотой лиц с артериальным давлением среди курящих и некурящих? Ответить на этот вопрос можно, рассчитав критерий хи-квадрат Пирсона и сравнив получившееся значение с критическим.
3. Условия и ограничения применения критерия хи-квадрат Пирсона
- Сопоставляемые показатели должны быть измерены в номинальной шкале (например, пол пациента - мужской или женский) или в порядковой (например, степень артериальной гипертензии, принимающая значения от 0 до 3).
- Данный метод позволяет проводить анализ не только четырехпольных таблиц, когда и фактор, и исход являются бинарными переменными, то есть имеют только два возможных значения (например, мужской или женский пол, наличие или отсутствие определенного заболевания в анамнезе...). Критерий хи-квадрат Пирсона может применяться и в случае анализа многопольных таблиц, когда фактор и (или) исход принимают три и более значений.
- Сопоставляемые группы должны быть независимыми, то есть критерий хи-квадрат не должен применяться при сравнении наблюдений "до-"после". В этих случаях проводится тест Мак-Немара (при сравнении двух связанных совокупностей) или рассчитывается Q-критерий Кохрена (в случае сравнения трех и более групп).
- При анализе четырехпольных таблиц ожидаемые значения в каждой из ячеек должны быть не менее 10. В том случае, если хотя бы в одной ячейке ожидаемое явление принимает значение от 5 до 9, критерий хи-квадрат должен рассчитываться с поправкой Йейтса . Если хотя бы в одной ячейке ожидаемое явление меньше 5, то для анализа должен использоваться точный критерий Фишера .
- В случае анализа многопольных таблиц ожидаемое число наблюдений не должно принимать значения менее 5 более чем в 20% ячеек.
4. Как рассчитать критерий хи-квадрат Пирсона?
Для расчета критерия хи-квадрат необходимо:
Данный алгоритм применим как для четырехпольных, так и для многопольных таблиц.
5. Как интерпретировать значение критерия хи-квадрат Пирсона?
В том случае, если полученное значение критерия χ 2 больше критического, делаем вывод о наличии статистической взаимосвязи между изучаемым фактором риска и исходом при соответствующем уровне значимости.
6. Пример расчета критерия хи-квадрат Пирсона
Определим статистическую значимость влияния фактора курения на частоту случаев артериальной гипертонии по рассмотренной выше таблице:
- Рассчитываем ожидаемые значения для каждой ячейки:
- Находим значение критерия хи-квадрат Пирсона:
χ 2 = (40-33.6) 2 /33.6 + (30-36.4) 2 /36.4 + (32-38.4) 2 /38.4 + (48-41.6) 2 /41.6 = 4.396.
- Число степеней свободы f = (2-1)*(2-1) = 1. Находим по таблице критическое значение критерия хи-квадрат Пирсона, которое при уровне значимости p=0.05 и числе степеней свободы 1 составляет 3.841.
- Сравниваем полученное значение критерия хи-квадрат с критическим: 4.396 > 3.841, следовательно зависимость частоты случаев артериальной гипертонии от наличия курения - статистически значима. Уровень значимости данной взаимосвязи соответствует p<0.05.
Критерий хи-квадрат.
Критерий хи-квадрат в отличие от критерия z применяется для сравнения любого количества групп.
Исходные данные: таблица сопряжённости.
Пример таблицы сопряженности минимальной размерности 2*2, приведен ниже. A,B,C,D – так называемые, реальные частоты.
Признак 1 | Признак 2 | Всего | |
Группа 1 | A | B | A+B |
Группа 2 | C | D | C+D |
Всего | A+C | B+D | A+B+C+D |
Расчёт критерия основан на сравнении реальных частот и ожидаемых частот, которые вычисляются в предположении отсутствия взаимного влияния сравниваемых признаков друг на друга. Таким образом, если реальные и ожидаемые частоты достаточно близки друг к другу, то влияния нет и значит признаки будут распределены примерно одинаково по группам.
Исходные данные для применения этого метода должны быть занесены в таблицу сопряженности, по столбцам и по строчкам которой указываются варианты значений изучаемых признаков. Числа в этой таблице будут называться реальными или экспериментальными частотами. Далее необходимо рассчитать ожидаемые частоты исходя из предположения, что сравниваемые группы абсолютно равны по распределению признаков. В этом случае пропорции по итоговой строчке или столбцу «всего» должны сохраняться в любой строчке и столбце. Исходя из этого, определяются ожидаемые частоты (см. пример).
Затем рассчитывают значение критерия как сумму по всем ячейкам таблицы сопряженности отношения квадрата разности между реальной частотой и ожидаемой частотой к ожидаемой частоте:
где - реальная частота в ячейке; - ожидаемая частота в ячейке.
, где N = A+ B + C + D .
При расчёте по основной формуле для таблицы 2*2 (только для такой таблицы ), также необходимо применить поправку Йейтса на непрерывность:
.
Критическое значение критерия определяется по таблице (см. приложение) с учетом числа степеней свободы и уровня значимости. Уровень значимости принимают стандартным: 0,05; 0,01 или 0,001. Число степеней свободы определяется как произведение числа строк и столбцов таблицы сопряженности уменьшенных каждое на единицу:
,
где r – число строк (число градаций одного признака), с – число столбцов (число градаций другого признака). Это критическое значение можно определить в электронной таблице Microsoft Excel используя функцию =хи2обр(a, f ), где вместо a надо ввести уровень значимости, а вместо f – число степеней свободы.
Если значение критерия хи-квадрат больше критического, то гипотезу о независимости признаков отвергают и их можно считать зависимыми на выбранном уровне значимости.
У этого метода есть ограничение по применимости: ожидаемые частоты должны быть 5 или более (для таблицы 2*2). Для произвольной таблицы это ограничение менее строгое: все ожидаемые частоты должны быть 1 или больше, а доля ячеек с ожидаемыми частотами меньше 5 не должна превышать 20%.
Из таблицы сопряженности большой размерности можно «вычленить» таблицы меньшей размерности и для них рассчитать значение критерия c 2 . Это фактически будут множественные сравнения, аналогичные описанным для критерия Стьюдента. В этом случае также надо применять поправку на множественные сравнения в зависимости от их количества.
Для проверки гипотезы с помощью критерия c 2 в электронных таблицах Microsoft Excel можно применить следующую функцию:
ХИ2ТЕСТ(фактический_интервал; ожидаемый_интервал).
Здесь фактический_интервал – исходная таблица сопряженности с реальными частотами (указываются только ячейки с самими частотами без заголовков и «всего»); ожидаемый_интервал – массив ожидаемых частот. Следовательно, ожидаемые частоты должны быть вычислены самостоятельно.
Пример:
В некотором городе произошла вспышка инфекционного заболевания. Есть предположение, что источником заражения явилась питьевая вода. Проверить это предположение решили с помощью выборочного опроса городского населения, по которому необходимо установить влияет ли количество выпиваемой воды на количество заболевших.
Исходные данные приведены в следующей таблице:
Рассчитаем ожидаемые частоты. Пропорция по всего должна сохраниться и внутри таблицы. Поэтому вычислим, например, какую долю составляют всего по строчкам в общей численности, получим для каждой строчки коэффициент. Такая же доля должна оказаться в каждой ячейке соответствующей строчки, поэтому для вычисления ожидаемой частоты в ячейке умножаем коэффициент на всего по соответствующему столбцу.
Число степеней свободы равно (3-1)*(2-1)=2. Критическое значение критерия .
Экспериментальное значение больше критического (61,5>13,816), т.е. гипотеза об отсутствия влияния количества выпиваемой воды на заболеваемость отвергается с вероятностью ошибки менее 0,001. Таким образом, можно утверждать, что именно вода стала источником заболевания.
У обоих описанных критериев существуют ограничения, которые обычно не выполняются, если число наблюдений невелико или отдельные градации признаков редко встречаются. В этом случае используют точный критерий Фишера . Он основан на переборе всех возможных вариантов заполнения таблицы сопряженности при данной численности групп. Поэтому ручной расчет его довольно сложен. Для его расчёта можно воспользоваться статистическими пакетами прикладных программ.
Критерий z является аналогом критерия Стьюдента, но применяется для сравнения качественных признаков. Экспериментальное значение критерия рассчитывается как отношение разности долей к средней ошибке разности долей.
Критические значение критерия z равны соответствующим точкам нормированного нормального распределения: , , .
Критерий хи-квадрат применяется для сравнения любого количества групп по значениям качественных признаков. Исходные данные должны быть представлены в виде таблицы сопряжённости. Экспериментальное значение критерия рассчитывают как сумму по всем ячейкам таблицы сопряженности отношения квадрата разности между реальной частотой и ожидаемой частотой к ожидаемой частоте. Ожидаемые частоты вычисляются в предположении равенства сравниваемых признаков во всех группах. Критические значения определяются по таблицам распределения хи-квадрат.
ЛИТЕРАТУРА.
Гланц С. – Глава 5.
Реброва О.Ю. – Глава 10,11.
Лакин Г.Ф. – с. 120-123
Вопросы для самопроверки студентов.
1. В каких случаях можно применять критерий z?
2. На чём основано вычисление экспериментального значения критерия z?
3. Как найти критическое значение критерия z?
4. В каких случаях можно применять критерий c 2 ?
5. На чём основано вычисление экспериментального значения критерия c 2 ?
6. Как найти критическое значение критерия c 2 ?
7. Что ещё можно применить для сравнения качественных признаков, если нельзя применить по ограничениям критерии z и c 2 ?
Задачи.
23. Понятие распределения хи-квадрат и Стьюдента, и графический вид
1) Распределение (хи-квадрат) с n степенями свободы - это распределение суммы квадратов n независимых стандартных нормальных случайных величин.
Распределение (хи – квадрат) – распределение случайной величины (причем математическое ожидание каждой из них равно 0, а среднее квадратическое отклонение-1)
где случайные величины независимы и имеют одно и тоже распределение. При этом число слагаемых, т.е., называется "числом степеней свободы" распределения хи-квадрат. Число хи-квадрат опредляется одни параметром-числом степеней свободы. С увеличением числа степеней свободы распределение медленно приближается к нормальному.
Тогда сумма их квадратов
является случайной величиной, распределенной по так называемому закону «хи-квадрат» с k = n степенями свободы; если же слагаемые связаны каким-либо соотношением (например, ), то число степеней свободы k = n – 1.
Плотность этого распределения
Здесь - гамма-функция; в частности, Г(п + 1) = п! .
Следовательно, распределение «хи-квадрат» определяется одним параметром – числом степеней свободы k.
Замечание 1. С увеличением числа степеней свободы распределение «хи-квадрат» постепенно приближается к нормальному.
Замечание 2. С помощью распределения «хи-квадрат» определяются многие другие распреде-ления, встречающиеся на практике, например, распределение случайной величины - длины случайного вектора (Х1, Х2,…, Хп), координаты которого независимы и распределены по нормальному закону.
Впервые χ2-распределение было рассмотрено Р.Хельмертом (1876) и К.Пирсоном (1900).
Мат.ожид.=n; D=2n
2) Распределение Стьюдента
Рассмотрим две независимые случайные величины: Z, имеющую нормальное распределение и нормированную (то есть М(Z) = 0, σ(Z) = 1), и V, распределенную по закону «хи-квадрат» с k степенями свободы. Тогда величина
имеет распределение, называемое t – распределением или распределением Стьюдента с k степенями свободы. При этом k называется "числом степеней свободы" распределения Стьюдента.
С возрастанием числа степеней свободы распределение Стьюдента быстро приближается к нормальному.
Это распределение было введено в 1908 г. английским статистиком В. Госсетом, работавшем на фабрике, выпускающей пиво. Вероятностно-статистические методы использовались для принятия экономических и технических решений на этой фабрике, поэтому ее руководство запрещало В. Госсету публиковать научные статьи под своим именем. Таким способом охранялась коммерческая тайна, "ноу-хау" в виде вероятностно-статистических методов, разработанных В. Госсетом. Однако он имел возможность публиковаться под псевдонимом "Стьюдент". История Госсета – Стьюдента показывает, что еще сто лет назад менеджерам Великобритании была очевидна большая экономическая эффективность вероятностно-статистических методов принятия решений.
Данный пост не отвечает, как в принципе считать критерий Хи квадрат, его цель - показать, как можно автоматизировать расчет Хи квадрат в excel
, какие функции для расчета критерия Хи квадрат там есть. Ибо не всегда под рукой есть SPSS или программа R .
В каком-то смысле это напоминалка и подсказка участникам семинара Аналитика для HR , надеюсь вы используете эти методы в работе, этот пост будет еще одной подсказкой.
Я не даю файл ссылкой на скачивание, но вы вполне можете просто скопировать приведенные мной таблицы примеров и провести по приведенным мной данным и формулам
Вводная
Например, мы хотим проверить независимость (случайность / неслучайность) распределения результатов корпоративного опроса, где в строках ответы на какой либо вопрос анкеты, а в столбцах - распределение по стажу.На вычисление Хи квадрат вы выходите через сводную таблицу, когда ваши данные сведены в таблицу сопряжения, например в таком виде
Таблица №1
менее 1 года |
Сумма по строкам |
|||||
Сумма по столбцам |
ХИ2.ТЕСТ
Формула ХИ2.ТЕСТ вычисляет вероятность независимости (случайность / неслучайность) распределения
Синаксис такой
ХИ2.ТЕСТ(фактический_интервал,ожидаемый_интервал)
В нашем случае фактический интервал это содержимое таблицы, т.е.
В нашем случае ХИ2.РАСП.ПХ = 0,000466219908895455, как и в примере с ХИ2.ТЕСТ
Примечание
Эта формула вычисления Хи квадрат в excel подойдет вам для вычисления таблиц размерностью 2Х2, поскольку вы сами считаете Хиквадрат эмпирическое и можете ввести в расчеты поправку на непрерывность
Примечание 2
Есть также формула ХИ2.РАСП (вы с неизбежностью увидите ее в excel) - она считает левостороннюю вероятность (если по простому, то левосторонняя считается как 1 - правосторонняя, т.е. мы просто переворачиваем формулу, поэтому я и не даю ее в расчетах Хи квадрат, в нашем примере ХИ2.РАСП = 0,999533780091105.Итого ХИ2.РАСП + ХИ2.РАСП.ПХ = 1.
ХИ2.ОБР.ПХ
Возвращает значение, обратное правосторонней вероятности распределения хи-квадрат (или просто значение Хи квадрат для определенного уровня вероятности и количества степеней свободы)
Синаксис
ХИ2.ОБР.ПХ(вероятность;степени_свободы)
Заключение
Честно признаюсь, не владею точной информацией, насколько полученные результаты вычисления Хи квадрат в excel отличаются от результатов вычисления Хи квадрат в SPSS. Точно понимаю. что отличаются, хотя бы потому, что при самостоятельном вычислении Хи квадрат значения округляются и теряется какое-то количество знаков после запятой. Но не думаю, что это является критичным. Рекомендую лишь страховаться в том случае, когда вероятность распределения Хи квадрат близко к порогу (p-value) 0, 05.
Не очень здорово, что не учитывается поправка на непрерывность - у нас многое вычисляется в таблицах 2Х2. Поэтому мы почти не достигаем оптимизации в случае расчета таблиц 2Х2
Ну и тем не менее, думаю, что приведенных знаний достаточно, чтобы сделать вычисление Хи квадрат в excel чуть быстрее, чтобы сэкономить время на более важные вещи