Доверительный интервал для математического ожидания формула. Доверительный интервал для математического ожидания

Пусть CB X образуют генеральную совокупность и в — неизвестный параметр CB X. Если статистическая оценка в * является состоятельной, то чем больше объем выборки, тем точнее получаем значение в. Однако на практике мы имеем выборки не очень большого объема, поэтому не можем гарантировать большую точность.

Пусть в* — статистическая оценка для в. Величина |в* - в| называется точностью оценки. Ясно, что точность является CB, т. к. в* — случайная величина. Зададим малое положительное число 8 и потребуем, чтобы точность оценки |в* - в| была меньше 8, т. е. | в* - в | < 8.

Надежностью g или доверительной вероятностью оценки в по в * называется вероятность g, с которой осуществляется неравенство |в * - в| < 8, т. е.

Обычно надежность g задают наперед, причем, за g берут число, близкое к 1 (0,9; 0,95; 0,99; ...).

Так как неравенство |в * - в| < S равносильно двойному неравенству в* - S < в < в* + 8, то получаем:

Интервал (в * - 8, в* + 5) называется доверительным интервалом, т. е. доверительный интервал покрывает неизвестный параметр в с вероятностью у. Заметим, что концы доверительного интервала являются случайными и изменяются от выборки к выборке, поэтому точнее говорить, что интервал (в * - 8, в * + 8) покрывает неизвестный параметр в, а не в принадлежит этому интервалу.

Пусть генеральная совокупность задана случайной величиной X, распределенной по нормальному закону, причем, среднее квадратическое отклонение а известно. Неизвестным является математическое ожидание а = М (X). Требуется найти доверительный интервал для а при заданной надежности у.

Выборочная средняя

является статистической оценкой для хг = а.

Теорема. Случайная величина хВ имеет нормальное распределение, если X имеет нормальное распределение, и М (ХВ) = а,

А (XВ) = а, где а = у/Б (X), а = М (X). л/и

Доверительный интервал для а имеет вид:

Находим 8.

Пользуясь соотношением

где Ф(г) — функция Лапласа, имеем:

Р { | XВ - а | <8} = 2Ф

таблице значений функции Лапласа находим значение t.

Обозначив

T, получим F(t) = g Так как g задана, то по

Из равенстваНаходим— точность оценки.

Значит, доверительный интервал для а имеет вид:

Если задана выборка из генеральной совокупности X

нГ к" X2 Xm
n. n1 n2 nm

n = U1 + ... + nm, то доверительный интервал будет:

Пример 6.35. Найти доверительный интервал для оценки математического ожидания а нормального распределения с надежностью 0,95, зная выборочную среднюю Xb = 10,43, объем выборки n = 100 и среднее квадратическое отклонение s = 5.

Воспользуемся формулой

Часто оценщику приходится анализировать рынок недвижимости того сегмента, в котором располагается объект оценки. Если рынок развит, проанализировать всю совокупность представленных объектов бывает сложно, поэтому для анализа используется выборка объектов. Не всегда эта выборка получается однородной, иногда требуется очистить ее от экстремумов - слишком высоких или слишком низких предложений рынка. Для этой цели применяется доверительный интервал . Цель данного исследования - провести сравнительный анализ двух способов расчета доверительного интервала и выбрать оптимальный вариант расчета при работе с разными выборками в системе estimatica.pro.

Доверительный интервал - вычисленный на основе выборки интервал значений признака, который с известной вероятностью содержит оцениваемый параметр генеральной совокупности.

Смысл вычисления доверительного интервала заключается в построении по данным выборки такого интервала, чтобы можно было утверждать с заданной вероятностью, что значение оцениваемого параметра находится в этом интервале. Другими словами, доверительный интервал с определенной вероятностью содержит неизвестное значение оцениваемой величины. Чем шире интервал, тем выше неточность.

Существуют разные методы определения доверительного интервала. В этой статье рассмотрим 2 способа:

  • через медиану и среднеквадратическое отклонение;
  • через критическое значение t-статистики (коэффициент Стьюдента).

Этапы сравнительного анализа разных способов расчета ДИ:

1. формируем выборку данных;

2. обрабатываем ее статистическими методами: рассчитываем среднее значение, медиану, дисперсию и т.д.;

3. рассчитываем доверительный интервал двумя способами;

4. анализируем очищенные выборки и полученные доверительные интервалы.

Этап 1. Выборка данных

Выборка сформирована с помощью системы estimatica.pro. В выборку вошло 91 предложение о продаже 1 комнатных квартир в 3-ем ценовом поясе с типом планировки «Хрущевка».

Таблица 1. Исходная выборка

Цена 1 кв.м., д.е.

Рис.1. Исходная выборка



Этап 2. Обработка исходной выборки

Обработка выборки методами статистики требует вычисления следующих значений:

1. Среднее арифметическое значение

2. Медиана - число, характеризующее выборку: ровно половина элементов выборки больше медианы, другая половина меньше медианы

(для выборки, имеющей нечетное число значений)

3. Размах - разница между максимальным и минимальным значениями в выборке

4. Дисперсия - используется для более точного оценивания вариации данных

5. Среднеквадратическое отклонение по выборке (далее - СКО) - наиболее распространённый показатель рассеивания значений корректировок вокруг среднего арифметического значения.

6. Коэффициент вариации - отражает степень разбросанности значений корректировок

7. коэффициент осцилляции - отражает относительное колебание крайних значений цен в выборке вокруг средней

Таблица 2. Статистические показатели исходной выборки

Коэффициент вариации, который характеризует однородность данных, составляет 12,29%, однако коэффициент осцилляции слишком велик. Таким образом, мы можем утверждать, что исходная выборка не является однородной, поэтому перейдем к расчету доверительного интервала.

Этап 3. Расчёт доверительного интервала

Способ 1. Расчёт через медиану и среднеквадратическое отклонение.

Доверительный интервал определяется следующим образом: минимальное значение - из медианы вычитается СКО; максимальное значение - к медиане прибавляется СКО.

Таким образом, доверительный интервал (47179 д.е.; 60689 д.е.)

Рис. 2. Значения, попавшие в доверительный интервал 1.



Способ 2. Построение доверительного интервала через критическое значение t-статистики (коэффициент Стьюдента)

С.В. Грибовский в книге «Математические методы оценки стоимости имущества» описывает способ вычисления доверительного интервала через коэффициент Стьюдента. При расчете этим методом оценщик должен сам задать уровень значимости ∝, определяющий вероятность, с которой будет построен доверительный интервал. Обычно используются уровни значимости 0,1; 0,05 и 0,01. Им соответствуют доверительные вероятности 0,9; 0,95 и 0,99. При таком методе полагают истинные значения математического ожидания и дисперсии практически неизвестными (что почти всегда верно при решении практических задач оценки).

Формула доверительного интервала:

n - объем выборки;

Критическое значение t- статистики (распределения Стьюдента) с уровнем значимости ∝,числом степеней свободы n-1,которое определяется по специальным статистическим таблицам либо с помощью MS Excel ( →"Статистические"→ СТЬЮДРАСПОБР);

∝ - уровень значимости, принимаем ∝=0,01.

Рис. 2. Значения, попавшие в доверительный интервал 2.

Этап 4. Анализ разных способов расчета доверительного интервала

Два способа расчета доверительного интервала - через медиану и коэффициент Стьюдента - привели к разным значениям интервалов. Соответственно, получилось две различные очищенные выборки.

Таблица 3. Статистические показатели по трем выборкам.

Показатель

Исходная выборка

1 вариант

2 вариант

Среднее значение

Дисперсия

Коэф. вариации

Коэф. осциляции

Количество выбывших объектов, шт.

На основании выполненных расчетов можно сказать, что полученные разными методами значения доверительных интервалов пересекаются, поэтому можно использовать любой из способов расчета на усмотрение оценщика.

Однако мы считаем, что при работе в системе estimatica.pro целесообразно выбирать метод расчета доверительного интервала в зависимости от степени развитости рынка:

  • если рынок неразвит, применять метод расчета через медиану и среднеквадратическое отклонение, так как количество выбывших объектов в этом случае невелико;
  • если рынок развит, применять расчет через критическое значение t-статистики (коэффициент Стьюдента), так как есть возможность сформировать большую исходную выборку.

При подготовке статьи были использованы:

1. Грибовский С.В., Сивец С.А., Левыкина И.А. Математические методы оценки стоимости имущества. Москва, 2014 г.

2. Данные системы estimatica.pro

Построим в MS EXCEL доверительный интервал для оценки среднего значения распределения в случае известного значения дисперсии.

Разумеется, выбор уровня доверия полностью зависит от решаемой задачи. Так, степень доверия авиапассажира к надежности самолета, несомненно, должна быть выше степени доверия покупателя к надежности электрической лампочки.

Формулировка задачи

Предположим, что из генеральной совокупности имеющей взята выборка размера n. Предполагается, что стандартное отклонение этого распределения известно. Необходимо на основании этой выборки оценить неизвестное среднее значение распределения (μ, ) и построить соответствующий двухсторонний доверительный интервал .

Точечная оценка

Как известно из , статистика (обозначим ее Х ср ) является несмещенной оценкой среднего этой генеральной совокупности и имеет распределение N(μ;σ 2 /n).

Примечание : Что делать, если требуется построить доверительный интервал в случае распределения, которое не является нормальным? В этом случае на помощь приходит , которая гласит, что при достаточно большом размере выборки n из распределения не являющемся нормальным , выборочное распределение статистики Х ср будет приблизительно соответствовать нормальному распределению с параметрами N(μ;σ 2 /n).

Итак, точечная оценка среднего значения распределения у нас есть – это среднее значение выборки , т.е. Х ср . Теперь займемся доверительным интервалом.

Построение доверительного интервала

Обычно, зная распределение и его параметры, мы можем вычислить вероятность того, что случайная величина примет значение из заданного нами интервала. Сейчас поступим наоборот: найдем интервал, в который случайная величина попадет с заданной вероятностью. Например, из свойств нормального распределения известно, что с вероятностью 95%, случайная величина, распределенная по нормальному закону , попадет в интервал примерно +/- 2 от среднего значения (см. статью про ). Этот интервал, послужит нам прототипом для доверительного интервала .

Теперь разберемся,знаем ли мы распределение, чтобы вычислить этот интервал? Для ответа на вопрос мы должны указать форму распределения и его параметры.

Форму распределения мы знаем – это нормальное распределение (напомним, что речь идет о выборочном распределении статистики Х ср ).

Параметр μ нам неизвестен (его как раз нужно оценить с помощью доверительного интервала ), но у нас есть его оценка Х ср, вычисленная на основе выборки, которую можно использовать.

Второй параметр – стандартное отклонение выборочного среднего будем считать известным , он равен σ/√n.

Т.к. мы не знаем μ, то будем строить интервал +/- 2 стандартных отклонения не от среднего значения , а от известной его оценки Х ср . Т.е. при расчете доверительного интервала мы НЕ будем считать, что Х ср попадет в интервал +/- 2 стандартных отклонения от μ с вероятностью 95%, а будем считать, что интервал +/- 2 стандартных отклонения от Х ср с вероятностью 95% накроет μ – среднее генеральной совокупности, из которого взята выборка . Эти два утверждения эквивалентны, но второе утверждение нам позволяет построить доверительный интервал .

Кроме того, уточним интервал: случайная величина, распределенная по нормальному закону , с вероятностью 95% попадает в интервал +/- 1,960 стандартных отклонений, а не+/- 2 стандартных отклонения . Это можно рассчитать с помощью формулы =НОРМ.СТ.ОБР((1+0,95)/2) , см. файл примера Лист Интервал .

Теперь мы можем сформулировать вероятностное утверждение, которое послужит нам для формирования доверительного интервала :
«Вероятность того, что среднее генеральной совокупности находится от среднего выборки в пределах 1,960 «стандартных отклонений выборочного среднего» , равна 95%».

Значение вероятности, упомянутое в утверждении, имеет специальное название , который связан с уровнем значимости α (альфа) простым выражением уровень доверия =1 . В нашем случае уровень значимости α=1-0,95=0,05 .

Теперь на основе этого вероятностного утверждения запишем выражение для вычисления доверительного интервала :

где Z α/2 стандартного нормального распределения (такое значение случайной величины z , что P (z >=Z α/2 )=α/2 ).

Примечание : Верхний α/2-квантиль определяет ширину доверительного интервала в стандартных отклонениях выборочного среднего. Верхний α/2-квантиль стандартного нормального распределения всегда больше 0, что очень удобно.

В нашем случае при α=0,05, верхний α/2-квантиль равен 1,960. Для других уровней значимости α (10%; 1%) верхний α/2-квантиль Z α/2 можно вычислить с помощью формулы =НОРМ.СТ.ОБР(1-α/2) или, если известен уровень доверия , =НОРМ.СТ.ОБР((1+ур.доверия)/2) .

Обычно при построении доверительных интервалов для оценки среднего используют только верхний α /2-квантиль и не используют нижний α /2-квантиль . Это возможно потому, что стандартное нормальное распределение симметрично относительно оси х (плотность его распределения симметрична относительно среднего, т.е. 0 ). Поэтому, нет нужды вычислять нижний α/2-квантиль (его называют просто α/2-квантиль ), т.к. он равен верхнему α /2-квантилю со знаком минус.

Напомним, что, не смотря на форму распределения величины х, соответствующая случайная величина Х ср распределена приблизительно нормально N(μ;σ 2 /n) (см. статью про ). Следовательно, в общем случае, вышеуказанное выражение для доверительного интервала является лишь приближенным. Если величина х распределена по нормальному закону N(μ;σ 2 /n), то выражение для доверительного интервала является точным.

Расчет доверительного интервала в MS EXCEL

Решим задачу.
Время отклика электронного компонента на входной сигнал является важной характеристикой устройства. Инженер хочет построить доверительный интервал для среднего времени отклика при уровне доверия 95%. Из предыдущего опыта инженер знает, что стандартное отклонение время отклика составляет 8 мсек. Известно, что для оценки времени отклика инженер сделал 25 измерений, среднее значение составило 78 мсек.

Решение : Инженер хочет знать время отклика электронного устройства, но он понимает, что время отклика является не фиксированной, а случайной величиной, которая имеет свое распределение. Так что, лучшее, на что он может рассчитывать, это определить параметры и форму этого распределения.

К сожалению, из условия задачи форма распределения времени отклика нам не известна (оно не обязательно должно быть нормальным ). , этого распределения также неизвестно. Известно только его стандартное отклонение σ=8. Поэтому, пока мы не можем посчитать вероятности и построить доверительный интервал .

Однако, не смотря на то, что мы не знаем распределение времени отдельного отклика , мы знаем, что согласно ЦПТ , выборочное распределение среднего времени отклика является приблизительно нормальным (будем считать, что условия ЦПТ выполняются, т.к. размер выборки достаточно велик (n=25)).

Более того, среднее этого распределения равно среднему значению распределения единичного отклика, т.е. μ. А стандартное отклонение этого распределения (σ/√n) можно вычислить по формуле =8/КОРЕНЬ(25) .

Также известно, что инженером была получена точечная оценка параметра μ равная 78 мсек (Х ср). Поэтому, теперь мы можем вычислять вероятности, т.к. нам известна форма распределения (нормальное ) и его параметры (Х ср и σ/√n).

Инженер хочет знать математическое ожидание μ распределения времени отклика. Как было сказано выше, это μ равно математическому ожиданию выборочного распределения среднего времени отклика . Если мы воспользуемся нормальным распределением N(Х ср; σ/√n), то искомое μ будет находиться в интервале +/-2*σ/√n с вероятностью примерно 95%.

Уровень значимости равен 1-0,95=0,05.

Наконец, найдем левую и правую границу доверительного интервала .
Левая граница: =78-НОРМ.СТ.ОБР(1-0,05/2)*8/КОРЕНЬ(25)= 74,864
Правая граница: =78+НОРМ.СТ.ОБР(1-0,05/2)*8/КОРЕНЬ(25)=81,136

Левая граница: =НОРМ.ОБР(0,05/2; 78; 8/КОРЕНЬ(25))
Правая граница: =НОРМ.ОБР(1-0,05/2; 78; 8/КОРЕНЬ(25))

Ответ : доверительный интервал при уровне доверия 95% и σ =8 мсек равен 78+/-3,136 мсек.

В файле примера на листе Сигма известна создана форма для расчета и построения двухстороннего доверительного интервала для произвольных выборок с заданным σ и уровнем значимости .

Функция ДОВЕРИТ.НОРМ()

Если значения выборки находятся в диапазоне B20:B79 , а уровень значимости равен 0,05; то формула MS EXCEL:
=СРЗНАЧ(B20:B79)-ДОВЕРИТ.НОРМ(0,05;σ; СЧЁТ(B20:B79))
вернет левую границу доверительного интервала .

Эту же границу можно вычислить с помощью формулы:
=СРЗНАЧ(B20:B79)-НОРМ.СТ.ОБР(1-0,05/2)*σ/КОРЕНЬ(СЧЁТ(B20:B79))

Примечание : Функция ДОВЕРИТ.НОРМ() появилась в MS EXCEL 2010. В более ранних версиях MS EXCEL использовалась функция ДОВЕРИТ() .

Пусть случайная величина (можно говорить о генеральной совокупности) распределена по нормальному закону, для которого известна дисперсия D = 2 (> 0). Из генеральной совокупности (на множестве объектов которой определена случайная величина) делается выборка объема n. Выборка x 1 , x 2 ,..., x n рассматривается как совокупность n независимых случайных величин, распределенных так же как (подход, которому дано объяснение выше по тексту).

Ранее также обсуждались и доказаны следующие равенства:

Mx 1 = Mx 2 = ... = Mx n = M;

Dx 1 = Dx 2 = ... = Dx n = D;

Достаточно просто доказать (мы доказательство опускаем), что случайная величина в данном случае также распределена по нормальному закону.

Обозначим неизвестную величину M через a и подберем по заданной надежности число d > 0 так, чтобы выполнялось условие:

P(- a < d) = (1)

Так как случайная величина распределена по нормальному закону с математическим ожиданием M = M = a и дисперсией D = D /n = 2 /n, получаем:

P(- a < d) =P(a - d < < a + d) =

Осталось подобрать d таким, чтобы выполнялось равенство

Для любого можно по таблице найти такое число t, что(t)= / 2. Это число t иногда называют квантилем .

Теперь из равенства

определим значение d:

Окончательный результат получим, представив формулу (1) в виде:

Смысл последней формулы состоит в следующем: с надежностью доверительный интервал

покрывает неизвестный параметр a = M генеральной совокупности. Можно сказать иначе: точечная оценка определяет значение параметра M с точностью d= t / и надежностью.

Задача. Пусть имеется генеральная совокупность с некоторой характеристикой, распределенной по нормальному закону с дисперсией, равной 6,25. Произведена выборка объема n = 27 и получено средневыборочное значение характеристики = 12. Найти доверительный интервал, покрывающий неизвестное математическое ожидание исследуемой характеристики генеральной совокупности с надежностью =0,99.

Решение. Сначала по таблице для функции Лапласа найдем значение t из равенства (t) = / 2 = 0,495. По полученному значению t = 2,58 определим точность оценки (или половину длины доверительного интервала) d: d = 2,52,58 / 1,24. Отсюда получаем искомый доверительный интервал: (10,76; 13,24).

статистический гипотеза генеральный вариационный

Доверительный интервал для математического ожидания нормального распределения при неизвестной дисперсии

Пусть - случайная величина, распределенная по нормальному закону с неизвестным математическим ожиданием M, которое обозначим буквой a . Произведем выборку объема n. Определим среднюю выборочную и исправленную выборочную дисперсию s 2 по известным формулам.

Случайная величина

распределена по закону Стьюдента с n - 1 степенями свободы.

Задача заключается в том, чтобы по заданной надежности и по числу степеней свободы n - 1 найти такое число t , чтобы выполнялось равенство

или эквивалентное равенство

Здесь в скобках написано условие того, что значение неизвестного параметра a принадлежит некоторому промежутку, который и является доверительным интервалом. Его границы зависят от надежности, а также от параметров выборки и s.

Чтобы определить значение t по величине, равенство (2) преобразуем к виду:

Теперь по таблице для случайной величины t, распределенной по закону Стьюдента, по вероятности 1 - и числу степеней свободы n - 1 находим t. Формула (3) дает ответ поставленной задачи.

Задача. На контрольных испытаниях 20-ти электроламп средняя продолжительность их работы оказалась равной 2000 часов при среднем квадратическом отклонении (рассчитанном как корень квадратный из исправленной выборочной дисперсии), равном 11-ти часам. Известно, что продолжительность работы лампы является нормально распределенной случайной величиной. Определить с надежностью 0,95 доверительный интервал для математического ожидания этой случайной величины.

Решение. Величина 1 - в данном случае равна 0,05. По таблице распределения Стьюдента, при числе степеней свободы, равном 19, находим: t = 2,093. Вычислим теперь точность оценки: 2,093121/ = 56,6. Отсюда получаем искомый доверительный интервал: (1943,4; 2056,6).

Вы можете использовать данную форму поиска, чтобы найти нужную задачу. Вводите слово, фразу из задачи или ее номер, если он вам известен.


Искать только в данном разделе


Доверительные интервалы: список решений задач

Доверительные интервалы: теория и задачи

Общие сведения о доверительных интервалах

Введем кратко понятие доверительного интервала, который
1) оценивает некоторый параметр числовой выборки непосредственно по данным самой выборки,
2) накрывает значение этого параметра с вероятностью γ.

Доверительным интервалом для параметра X (при вероятности γ) называется интервал вида , такой что , а значения вычисляются некоторым образом по выборке .

Обычно в прикладных задачах доверительную вероятность берут равной γ = 0,9; 0,95; 0,99.

Рассмотрим некоторую выборку объема n, сделанную из генеральной совокупности, распределенной предположительно по нормальному закону распределения . Покажем, по каким формулам находятся доверительные интервалы для параметров распределения - математического ожидания и дисперсии (среднего квадратического отклонения).

Доверительный интервал для математического ожидания

Случай 1. Дисперсия распределения известна и равна . Тогда доверительный интервал для параметра a имеет вид:
t определяется из таблицы распределения Лапласа по соотношению

Случай 2. Дисперсия распределения неизвестна, по выборке вычислена точечная оценка дисперсии . Тогда доверительный интервал для параметра a имеет вид:
, где - выборочное среднее, вычисленное по выборке, параметр t определяется из таблицы распределения Стьюдента

Пример. По данным 7 измерений некоторой величины найдены средняя результатов измерений, равная 30 и выборочная дисперсия, равная 36. Найдите границы, в которых с надежностью 0,99 заключено истинное значение измеряемой величины.

Решение. Найдем . Тогда доверительные границы для интервала, заключающего истинное значение измеряемой величины можно найти по формуле:
, где - выборочное среднее, - выборочная дисперсия. Подставляем все величины и получаем:

Доверительный интервал для дисперсии

Считаем, что вообще говоря, математическое ожидание неизвестно, а известна только точечная несмещенная оценка дисперсии . Тогда доверительный интервал имеет вид:
, где - квантили распределения , определяемые из таблиц.

Пример. По данным 7 испытаний найдено значение оценки для среднеквадратического отклонения s=12 . Найти с вероятностью 0,9 ширину доверительного интервала, построенного для оценки дисперсии.

Решение. Доверительный интервал для неизвестной дисперсии генеральной совокупности можно найти по формуле:

Подставляем и получаем:


Тогда ширина доверительного интервала равна 465,589-71,708=393,881.

Доверительный интервал для вероятности (доли)

Случай 1. Пусть в задаче известен объем выборки и выборочная доля (относительная частота) . Тогда доверительный интервал для генеральной доли (истинной вероятности) имеет вид:
, где параметр t определяется из таблицы распределения Лапласа по соотношению .

Случай 2. Если в задаче дополнительно известен общий объем совокупности , из которой была сделана выборка, доверительный интервал для генеральной доли (истинной вероятности) можно найти по скорректированной формуле:
.

Пример. Известно, что Найти границы, в которых с вероятностью заключена генеральная доля.

Решение. Используем формулу:

Найдем параметр из условия , получим Подставляем в формулу:


Другие примеры задач по математической статистике вы найдете на странице