Оценки математического ожидания и дисперсии, их свойства. Примеры

Пусть имеется случайная величина Х с математическим ожиданием m и дисперсией D , при этом оба эти параметра неизвестны. Над величиной Х произведено N независимых экспериментов, в результате которых была получена совокупность N численных результатов x 1 , x 2 , …, x N . В качестве оценки математического ожидания естественно предложить среднее арифметическое наблюдаемых значений

(1)

Здесь в качестве x i рассматриваются конкретные значения (числа), полученные в результате N экспериментов. Если взять другие (независимые от предыдущих) N экспериментов, то, очевидно, мы получим другое значение . Если взять еще N экспериментов, то мы получим еще одно новое значение . Обозначим через X i случайную величину, являющуюся результатом i -го эксперимента, тогда реализациями X i будут числа, полученные в результате этих экспериментов. Очевидно, что случайная величина X i будет иметь такую же плотность распределения вероятности, что и исходная случайная величина Х . Также считаем, что случайные величины X i и X j являются независимыми при i , не равном j (различные независимые друг относительно друга эксперименты). Поэтому формулу (1) перепишем в другом (статистическом) виде:

(2)

Покажем, что оценка является несмещенной:

Таким образом, математическое ожидание выборочного среднего равно истинному математическому ожиданию случайной величины m . Это достаточно предсказуемый и понятный факт. Следовательно, за оценку математического ожидания случайной величины можно принять выборочное среднее (2). Теперь возникает вопрос: что происходит с дисперсией оценки математического ожидания при увеличении числа экспериментов? Аналитические вычисления показывают, что

где - дисперсия оценки математического ожидания (2), а D - истинная дисперсия случайной величины X .

Из вышесказанного следует, что с ростом N (количества экспериментов) дисперсия оценки уменьшается, т.е. чем больше мы суммируем независимые реализации, тем ближе к математическому ожиданию мы получим оценку.


Оценки математического дисперсии

На первый взгляд наиболее естественной оценкой представляется

(3)

где вычисляется по формуле (2). Проверим, является ли оценка несмещенной. Формула (3) может быть записана следующим образом :

Подставим в эту формулу выражение (2):

Найдем математическое ожидание оценки дисперсии:

(4)

Так как дисперсия случайной величины не зависит от того, какое математическое ожидание у случайной величины, примем математическое ожидание равным 0, т.е. m = 0.

(5)
при . (6)

Пусть имеется случайная величина Х с математическим ожиданием m и дисперсией D , при этом оба эти параметра неизвестны. Над величиной Х произведено N независимых экспериментов, в результате которых была получена совокупность N численных результатов x 1 , x 2 , …, x N . В качестве оценки математического ожидания естественно предложить среднее арифметическое наблюдаемых значений

(1)

Здесь в качестве x i рассматриваются конкретные значения (числа), полученные в результате N экспериментов. Если взять другие (независимые от предыдущих) N экспериментов, то, очевидно, мы получим другое значение . Если взять еще N экспериментов, то мы получим еще одно новое значение . Обозначим через X i случайную величину, являющуюся результатом i -го эксперимента, тогда реализациями X i будут числа, полученные в результате этих экспериментов. Очевидно, что случайная величина X i будет иметь такую же плотность распределения вероятности, что и исходная случайная величина Х . Также считаем, что случайные величины X i и X j являются независимыми при i , не равном j (различные независимые друг относительно друга эксперименты). Поэтому формулу (1) перепишем в другом (статистическом) виде:

(2)

Покажем, что оценка является несмещенной:

Таким образом, математическое ожидание выборочного среднего равно истинному математическому ожиданию случайной величины m . Это достаточно предсказуемый и понятный факт. Следовательно, за оценку математического ожидания случайной величины можно принять выборочное среднее (2). Теперь возникает вопрос: что происходит с дисперсией оценки математического ожидания при увеличении числа экспериментов? Аналитические вычисления показывают, что

где - дисперсия оценки математического ожидания (2), а D - истинная дисперсия случайной величины X .

Из вышесказанного следует, что с ростом N (количества экспериментов) дисперсия оценки уменьшается, т.е. чем больше мы суммируем независимые реализации, тем ближе к математическому ожиданию мы получим оценку.


Оценки математического дисперсии

На первый взгляд наиболее естественной оценкой представляется

(3)

где вычисляется по формуле (2). Проверим, является ли оценка несмещенной. Формула (3) может быть записана следующим образом :

Подставим в эту формулу выражение (2):

Найдем математическое ожидание оценки дисперсии:

(4)

Так как дисперсия случайной величины не зависит от того, какое математическое ожидание у случайной величины, примем математическое ожидание равным 0, т.е. m = 0.

(5)
при . (6)

Важнейшими числовыми характеристиками случайной величины Х являются её математическое ожидание m x =M и дисперсия σ 2 x =D[x] = M[(X – m x) 2 ] = M – . Число m x является средним значением случайной величины, около которого разбросаны значения величин Х , мерой этого разброса являются дисперсия D[x] и среднеквадратическое отклонение:

s x = (1.11)

Мы будем в дальнейшем рассмотривать важную задачу для исследования наблюдаемой случайной величины. Пусть имеется некоторая выборка (будем обозначать её S ) случайной величины Х . Требуется по имеющейся выборке оценить неизвестные значения m x и .

Теория оценок различных параметров занимает в математической статистике значительное место. Поэтому рассмотрим сначала общую задачу. Пусть требуется оценить некоторый параметр a по выборке S . Каждая такая оценка a* является некоторой функцией a*=a*(S) от значений выборки. Значения выборки случайны, поэтому и сама оценка a* является случайной величиной. Можно построить множество различных оценок (то есть функций) a* , но при этом желательно иметь «хорошую» или даже «наилучшую», в некотором смысле, оценку. К оценкам обычно предъявляются следующие три естественных требования.

1. Несмещённость. Математическое ожидание оценки a* должно равняться точному значению параметра: M = a . Другими словами, оценка a* не должна иметь систематической ошибки.

2. Состоятельность. При бесконечном увеличении объёма выборки, оценка a* должна сходиться к точному значению, то есть при увеличении числа наблюдений ошибка оценки стремится к нулю.

3. Эффективность. Оценка a* называется эффективной, если она не смещена и имеет минимально возможную дисперсию ошибки. В этом случае минимален разброс оценки a* относительно точного значения и оценка в определённом смысле является «самой точной».

К сожалению, не всегда удаётся построить оценку, удовлетворяющую всем трём требованиям одновременно.

Для оценки математического ожидания чаще всего применяется оценка.

= , (1.12)

то есть среднее арифметическое по выборке. Если случайная величина X имеет конечные m x и s x , то оценка (1.12) не смещена и состоятельна. Эта оценка эффективна, например, если X имеет нормальное распределение (рис.п.1.4, приложение 1). Для других распределений она может оказаться неэффективной. Например, в случае равномерного распределения (рис.п.1.1, приложение 1) несмещённой, состоятельной оценкой будет

(1.13)

В то же время оценка (1.13) для нормального распределения не будет ни состоятельной, ни эффективной, и будет даже ухудшаться с ростом объёма выборки.

Таким образом, для каждого типа распределения случайной величины Х следовало бы использовать свою оценку математического ожидания. Однако в нашей ситуации тип распределения может быть известен лишь предположительно. Поэтому будем использовать оценку (1.12), которая достаточно проста и имеет наиболее важные свойства несмещённости и состоятельности.

Для оценки математического ожидания по группированной выборке используется следующая формула:

= , (1.14)

которую можно получить из предыдущей, если считать все m i значений выборки, попавших в i –й интервал, равными представителю z i этого интервала. Эта оценка, естественно, грубее, но требует значительно меньшего объёма вычислений, особенно при большом объёме выборки.

Для оценки дисперсии чаще всего используется оценка:

= , (1.15)

Эта оценка не смещена и состоятельна для любой случайной величины Х , имеющей конечные моменты до четвёртого порядка включительно.

В случае группированной выборки используется оценка:

= (1.16)

Оценки (1.14) и (1.16), как правило, смещены и несостоятельны, так как их математические ожидания и пределы, к которым они сходятся, отличны от m x и в силу замены всех значений выборки, попавших в i –й интервал, на представителя интервала z i .

Отметим, что при больших n, коэффициент n /(n – 1) в выражениях (1.15) и (1.16) близок к единице, поэтому его можно опустить.

Интервальные оценки.

Пусть точное значение некоторого параметра равно a и найдена его оценка a*(S) по выборке S . Оценке a* соответствует точка на числовой оси (рис.1.5), поэтому такая оценка называется точечной . Все оценки, рассмотренные в предыдущем параграфе, точечные. Практически всегда, в силу случайности

a* ¹ a , и мы можем надеяться только на то, что точка a* находится где–то вблизи a . Но насколько близко? Любая другая точечная оценка будет иметь тот же недостаток – отсутствие меры надёжности результата.


Рис.1.5. Точечная оценка параметра.

Более определённым в этом отношении являются интервальные оценки . Интервальные оценка представляет собой интервал I b = (a , b) , в котором точное значение оцениваемого параметра находится с заданной вероятностью b . Интервал I b называется доверительным интервалом , а вероятность b называется доверительной вероятностью и может рассматриваться как надёжность оценки .

Доверительный интервал состоится по имеющейся выборке S , он случаен в том смысле, что случайны его границы a(S) и b(S) , которые мы будем вычислять по (случайной) выборке. Поэтому b есть вероятность того, что случайный интервал I b накроет неслучайную точку a . На рис. 1.6. интервал I b накрыл точку a , а I b * - нет. Поэтому не совсем правильно говорить, что a « попадает» в интервал.

Если доверительная вероятность b велика (например, b = 0,999 ), то практически всегда точное значение a находится в построенном интервале.


Рис.1.6. Доверительные интервалы параметра a для различных выборок.

Рассмотрим метод построения доверительного интервала для математического ожидания случайной величины Х, основанный на центральной предельной теореме .

Пусть случайная величина Х имеет неизвестное математическое ожидание m x и известную дисперсию . Тогда, в силу центральной предельной теоремы, среднее арифметическое:

= , (1.17)

результатов n независимых испытаний величины Х является случайной величиной, распределение которой при больших n , близко к нормальному распределению со средним m x и среднеквадратическим отклонением . Поэтому случайная величина

(1.18)

имеет распределение вероятностей, которое можно считать стандартным нормальным с плотностью распределения j(t) , график которой изображён на рис.1.7 (а также на рис.п.1.4, приложение 1).



Рис.1.7. Плотность распределения вероятностей случайной величины t .

Пусть задана доверительная вероятность b и t b - число, удовлетворяющее уравнению

b = Ф 0 (t b) – Ф 0 (-t b) = 2 Ф 0 (t b), (1.19)

где - функция Лапласа . Тогда вероятность попадания в интервал (-t b , t b) будет равна заштрихованной на рис.1.7. площади, и, в силу выражения (1.19), равна b . Следовательно

b = P(-t b < < t b) = P( – t b < m x < + t b ) =

= P( – t b < m x < + t b ) . (1.20)

Таким образом, в качестве доверительного интервала можно взять интервал

I b = ( – t b ; + t b ) , (1.21)

так как выражение (1.20) означает, что неизвестное точное значение m x находится в I b с заданной доверительной вероятностью b . Для построения I b нужно по заданному b найтиt b из уравнения (1.19). Приведём несколько значений t b , необходимых в дальнейшем :

t 0,9 = 1,645; t 0,95 = 1,96; t 0,99 = 2,58; t 0,999 = 3,3.

При выводе выражения (1.21) предполагалось, что известно точное значение среднеквадратического отклонения s х . Однако оно известно далеко не всегда. Воспользуемся поэтому его оценкой (1.15) и получим:

I b = ( – t b ; + t b ) . (1.22)

Соответственно, оценки и , полученные по группированной выборке, дают следующую формулу для доверительного интервала:

I b = ( – t b ; + t b ) . (1.23)

Параметры распределения и статистика

Любые параметры распределения случайной переменной, например, такие как математическое ожидание или дисперсия, являются теоретическими величинами, недоступными непосредственному измерению, хотя их и можно оценить. Они представляют собой количественную характеристику генеральной совокупности и могут быть сами по себе определены лишь в ходе теоретического моделирования как гипотетические величины, поскольку они описывают особенности распределения случайной величины в самой генеральной совокупности. Для того чтобы определить их на практике, исследователь, проводящий эксперимент, осуществляет их выборочную оценку. Такая оценка предполагает статистический подсчет.

Статистика представляет собой количественную характеристику исследуемых параметров, характеризующих распределение случайной величины, полученную на основе исследования выборочных значений. Статистика используется либо для описания самой выборки, либо, что имеет первостепенное значение в фундаментальных экспериментальных исследованиях, для оценки параметров распределения случайной величины в исследуемой генеральной совокупности.

Разделение понятий "параметр " и "статистика " является очень важным, так как оно позволяет избежать ряд ошибок, связанных с неверным толкованием данных, получаемых в эксперименте. Дело в том, что, когда мы оцениваем параметры распределения с помощью статистических данных, мы получаем величины, лишь в определенной степени близкие к оцениваемым параметрам. Между параметрами и статистикой практически всегда существует какое-то различие, причем, насколько велико это различие, мы, как правило, сказать не можем. Теоретически чем больше выборка, тем ближе оцениваемые параметры оказываются к их выборочным характеристикам. Однако это не означает, что, увеличив объем выборки, мы неминуемо ближе подойдем к оцениваемому параметру, уменьшим разницу между ним и вычисленной статистикой. На практике все может оказаться значительно сложнее.

Если в теории ожидаемое значение статистики совпадает с оцениваемым параметром, то такую оценку называют несмещенной. Оценку, при которой ожидаемое значение оцениваемого параметра отличается от самого параметра на некоторую величину, называют смещенной.

Также следует различать точечную и интервальную оценки параметров распределения. Точечной называют оценку с помощью какого-либо числа. Например, если мы утверждаем, что величина пространственного порога тактильной чувствительности для данного испытуемого в данных условиях и на данном участке кожи составляет 21,8 мм, то такая оценка будет точечной. Точно так же точечная оценка имеет место, когда в сводке погоды нам сообщают, что за окном 25°С. Интервальная оценка предполагает использование в оценке набора или диапазона чисел. Оценивая пространственный порог тактильной чувствительности, мы может сказать, что он оказался в диапазоне от 20 до 25 мм. Аналогичным образом синоптики могут сообщить, что по их прогнозам температура воздуха в ближайшие сутки достигнет значения 22–24°С. Интервальная оценка случайной величины позволяет нам не только определить искомое значение этой величины, но и задать возможную точность для такой оценки.

Математическое ожидание и его оценка

Вернемся к нашему опыту с подбрасыванием монеты.

Попытаемся ответить на вопрос: сколько раз должен выпасть "орел", если мы подбросим монету десять раз? Ответ, по-видимому, очевиден. Если вероятности каждого из двух исходов равны, то и сами исходы должны распределяться равным образом. Иными словами, при десятикратном подбрасывании обычной монеты мы вправе ожидать, что одна из ее сторон, например "орел", выпадет ровно пять раз. Аналогично при 100-кратном бросании монеты "орел" должен выпасть ровно 50 раз, а если монету бросить 4236 раз, то интересующая нас сторона должна появиться 2118 раз, не больше и не меньше.

Итак, теоретическое значение случайного события принято называть математическим ожиданием . Математическое ожидание может быть найдено путем умножения теоретической вероятности случайной величины на число испытаний. Более формально, однако, оно определяется как центральный момент первого порядка. Таким образом, математическое ожидание – это то значение случайной величины, к которому оно теоретически стремится при повторных испытаниях, относительно которого оно варьирует.

Ясно, что теоретическое значение математического ожидания как параметра распределения не всегда оказывается равным эмпирическому значению интересующей нас случайной величины, выраженной в статистике. Если мы проделаем опыт с подбрасыванием монеты, то вполне вероятно, что из десяти исходов "орел" выпадет лишь четыре или три раза, а может быть, напротив, он выпадет восемь раз, а может, и никогда не выпадет. Ясно, что какой-то из этих исходов оказывается более, какой-то менее вероятным. Если воспользоваться законом нормального распределения, то можно прийти к выводу, что чем больше результат отклоняется от теоретически ожидаемого, заданного величиной математического ожидания, тем он менее вероятен на практике.

Предположим далее, что мы проделали подобную процедуру несколько раз и ни разу не наблюдали теоретически ожидаемого значения. Тогда у нас может возникнуть сомнение относительно подлинности монеты. Мы можем предположить, что для нашей монеты вероятность выпадения "орла" на самом деле не равна 50%. В таком случае может понадобиться оценить величину вероятности этого события и соответственно величину математического ожидания. Такая необходимость возникает всякий раз, когда в эксперименте мы исследуем распределение непрерывной случайной величины, такой как время реакции, не имея заранее какой-либо теоретической модели. Как правило, это первый обязательный шаг в ходе количественной обработки результатов эксперимента.

Математическое ожидание можно оценить тремя способами, которые на практике могут дать несколько различные результаты, но в теории они должны непременно привести нас к величине математического ожидания.

Логику такой оценки иллюстрирует рис. 1.2. Математическое ожидание может быть рассмотрено как центральная тенденция в распределении случайной величины х, как наиболее вероятное и потому наиболее часто встречающееся ее значение и как точка, делящая распределение на две равные части.

Рис. 1.2.

Продолжим наши воображаемые опыты с монетой и проведем три эксперимента с десятикратным ее подбрасыванием. Предположим, что в первом эксперименте "орел" выпал четыре раза, то же самое произошло и во втором опыте, в третьем опыте "орел" выпадал более чем в полтора раза чаще – семь раз. Логично предположить, что математическое ожидание интересующего нас события на самом деле лежит где-то между этими величинами.

Первый , простейший способ оценки математического ожидания будет состоять в нахождении среднего арифметического. Тогда оценка математического ожидания на основе приведенных выше трех измерений будет равна (4 + 4 + 7)/3 = 5. Аналогичным образом в экспериментах со временем реакции математическое ожидание может быть оценено путем вычисления среднего арифметического всех полученных значений х. Так, если мы провели п замеров времени реакции х, то можем воспользоваться следующей формулой, которая показывает нам, что для вычисления среднего арифметического значения X необходимо сложить все эмпирически полученные величины и разделить их на число наблюдений:

В формуле (1.2) меру математического ожидания принято обозначать как ̅х (читается как "икс с чертой"), хотя иногда она может обозначаться как М (от англ. mean – среднее).

Среднее арифметическое является наиболее часто используемой оценкой математического ожидания. В таких случаях предполагается, что измерения случайной величины осуществляется в метрической шкале. Ясно, что полученный результат может совпадать, а может и не совпадать с истинным значением математического ожидания, которое нам никогда не известно. Важно, однако, что такой способ является несмещенной оценкой математического ожидания. Это значит, что ожидаемое значение оцениваемой величины равно ее математическому ожиданию: .

Второй способ оценки математического ожидания состоит в том, чтобы за его величину принять наиболее часто встречающееся значение интересующей нас переменной. Это значение называется модой распределения. Например, в рассмотренном только что случае с подбрасыванием монеты за величину математического ожидания можно принять "четыре", так как в трех проведенных испытаниях эта величина появлялась дважды; именно поэтому мода распределения в этом случае оказалась равной четырем. Оценка моды применяется главным образом в том случае, когда экспериментатор имеет дело с переменными, принимающими дискретные значения, заданные в неметрической шкале.

Например, описывая распределение оценок студентов на экзамене, можно построить частотное распределение полученных студентами оценок. Такое частотное распределение называется гистограммой. За величину центральной тенденции (математического ожидания) в этом случае можно принять наиболее распространенную оценку. При исследовании переменных, характеризующихся непрерывными значениями, эта мера практически не применяется или применяется редко. Если же частотное распределение полученных результатов все-таки строится, то оно, как правило, касается не самих полученных в эксперименте значений исследуемого признака, а некоторых интервалов его проявления. Скажем, исследуя рост людей, можно посмотреть, сколько человек попадает в интервал до 150 см роста, сколько в интервал от 150 до 155 см и т.д. В этом случае мода будут иметь отношение к интервальным значениям исследуемого признака, в данном случае – роста.

Понятно, что мода, как и среднее арифметическое, может совпадать, а может и не совпадать с действительным значением математического ожидания. Но так же, как и среднее арифметическое, мода является несмещенной оценкой математического ожидания.

Добавим, что если два значения в выборке встречаются одинаково часто, то такое распределение называют бимодальным. Если три и больше значений в выборке встречаются одинаково часто, то говорят, что такая выборка не имеет моды. Такие случаи при достаточно большом числе наблюдений, как правило, свидетельствуют о том, что данные извлечены из генеральной совокупности, характер распределения в которой отличается от нормального.

Наконец, третий способ оценки математического ожидания состоит в том, чтобы поделить выборку испытуемых по интересующему нас параметру ровно пополам. Величина, характеризующая эту границу, называется медианой распределения.

Предположим, мы присутствуем на лыжных соревнованиях и после их окончания желаем оценить, кто из спортсменов показал результат выше среднего, а кто – ниже. Если состав участников более или менее ровный, то при оценке среднего результата логично вычислить среднее арифметическое. Предположим, однако, что среди участников-профессионалов есть несколько любителей. Их немного, но они показывают результаты, значительно уступающие остальным. В этом случае может оказаться, что из 100 участников соревнований, например, результат выше среднего показали 87. Ясно, что такая оценка средней тенденции нас нс всегда может устроить. В этом случае логично предполагать, что средний результат показали участники, занявшие где-то 50-е или 51-е место. Это как раз и будет медианой распределения. До 50-го финалиста финишировали 49 участников, после 51-го – тоже 49. Непонятно, правда, чей же результат из них принять за средний. Конечно, может оказаться, что они финишировали с одинаковым временем. Тогда проблемы не возникает. Не возникает проблемы и тогда, когда число наблюдений оказывается нечетным. В других случаях, однако, можно воспользоваться усреднением результатов двух участников.

Медиана представляет собой частный случай квантиля распределения. Квантиль – это часть распределения. Формально его можно определить как интегральное значение распределения между двумя величинами переменной X. Таким образом, величина X будет являться медианой распределения, если интегральное значение распределения (плотность вероятности) от -∞ до X равно интегральному значению распределения от X до +∞. Аналогичным образом распределение можно делить на четыре, десять или 100 частей. Такие квантили соответственно называются квартилями, децилями и перцентилями. Существуют и другие виды квантилей.

Так же, как и два предыдущих способа оценки математического ожидания, медиана является несмещенной оценкой математического ожидания.

Теоретически предполагается, что если мы имеем дело действительно с нормальным распределением случайной величины, то все три оценки математического ожидания должны давать один и тот же результат, так как все они представляют собой вариант несмещенной оценки одного и того же параметра распределения оцениваемой случайной величины (см. рис. 1.2). На практике, однако, такое встречается редко. Это может быть связано, в частности, и с тем, что анализируемое распределение отличается от нормального. Но основная причина таких несовпадений, как правило, состоит в том, что, оценивая величину математического ожидания, можно получить значение, весьма значительно отличающееся от его истинной величины. Впрочем, как уже было отмечено выше, в математической статистике доказано, что чем больше независимых испытаний рассматриваемой переменной проведено, тем ближе оцениваемое значение должно оказаться к истинному.

Таким образом, на практике выбор способа оценки математического ожидания определяется не стремлением получить более точную и надежную оценку этого параметра, а лишь соображениями удобства. Также определенную роль в выборе способа оценки математического ожидания играет измерительная шкала, в которой отражаются сами наблюдения оцениваемой случайной величины.

Основные свойства точечных оценок

Для того чтобы оценка имела практическую ценность, она должна обладать следующими свойствами.

1. Оценка параметра называется несмещенной, если ее математическое ожидание равно оцениваемому параметру, т.е.

Если равенство (22.1) не выполняется, то оценка может либо завышать значение (М>), либо занижать его (М <) . Естественно в качестве приближенного неизвестного параметра брать несмещенные оценки для того, чтобы не делать систематической ошибки в сторону завышения или занижения.

2. Оценка параметра называется состоятельной, если она подчиняется закону больших чисел, т.е. сходится по вероятности к оцениваемому параметру при неограниченном возрастании числа опытов (наблюдений) и, следовательно, выполняется следующее равенство:

где > 0 сколько угодно малое число.

Для выполнения (22.2) достаточно, чтобы дисперсия оценки стремилась к нулю при, т.е.

и кроме того, чтобы оценка была несмещенной. От формулы (22.3) легко перейти к (22.2) , если воспользоваться неравенством Чебышева.

Итак, состоятельность оценки означает, что при достаточно большом количестве опытов и со сколько угодно большой достоверностью отклонение оценки от истинного значения параметра меньше любой наперед заданной величины. Этим оправдано увеличение объема выборки.

Так как - случайная величина, значение которой изменяется от выборки к выборке, то меру ее рассеивания около математического ожидания будем характеризовать дисперсией D. Пусть и - две несмещенные оценки параметра, т.е. M = и M = , соответственно D и D и, если D < D , то в качестве оценки принимают.

3. Несмещенная оценка, которая имеет наименьшую дисперсию среди всех возможных несмещенных оценок параметра, вычисленных по выборкам одного и того же объема, называется эффективной оценкой.

На практике при оценке параметров не всегда удается удовлетворить одновременно требованиям 1, 2, 3. Однако выбору оценки всегда должно предшествовать ее критическое рассмотрение со всех точек зрения. При выборке практических методов обработки опытных данных необходимо руководствоваться сформулированными свойствами оценок.

Оценка математического ожидания и дисперсии по выборке

Наиболее важными характеристиками случайной величины являются математическое ожидание и дисперсия. Рассмотрим вопрос о том, какие выборочные характеристики лучше всего оценивают математическое ожидание и дисперсию в смысле несмещенности, эффективности и состоятельности.

Теорема 23.1. Арифметическая средняя, вычисленная по n независимым наблюдениям над случайной величиной, которая имеет математическое ожидание M = , является несмещенной оценкой этого параметра.

Доказательство.

Пусть - n независимых наблюдений над случайной величиной. По условию M = , а т.к. являются случайными величинами и имеют тот же закон распределения, то тогда. По определению средняя арифметическая

Рассмотрим математическое ожидание средней арифметической. Используя свойство математического ожидания, имеем:

т.е. . В силу (22.1) является несмещенной оценкой. ?

Теорема 23.2 . Арифметическая средняя, вычисленная по n независимым наблюдениям над случайной величиной, которая имеет M = и, является состоятельной оценкой этого параметра.

Доказательство.

Пусть - n независимых наблюдений над случайной величиной. Тогда в силу теоремы 23.1 имеем M = .

Для средней арифметической запишем неравенство Чебышева:

Используя свойства дисперсии 4,5 и (23.1), имеем:

т.к. по условию теоремы.

Следовательно,

Итак, дисперсия средней арифметической в n раз меньше дисперсии случайной величины. Тогда

а это значит, что является состоятельной оценкой.

Замечание : 1 . Примем без доказательства весьма важный для практики результат. Если N (a,), то несмещенная оценка математического ожидания a имеет минимальную дисперсию, равную, поэтому является эффективной оценкой параметра а. ?

Перейдем к оценке для дисперсии и проверим ее на состоятельность и несмещенность.

Теорема 23.3 . Если случайная выборка состоит из n независимых наблюдений над случайной величиной с

M = и D = , то выборочная дисперсия

не является несмещенной оценкой D - генеральной дисперсии.

Доказательство.

Пусть - n независимых наблюдений над случайной величиной. По условию и для всех. Преобразуем формулу (23.3) выборочной дисперсии:


Упростим выражение

Принимая во внимание (23.1), откуда