Полная выборка. Как правильно рассчитать объем выборки? Какие вопросы обычно ставится перед исследователем

Выборка – это:

1) совокупность тех элементов объекта исследования, которая будет непосредственно изучаться;

2) способы и процедуры отбора элементов объекта исследования.

Генеральная совокупность – полная совокупность объектов, имеющих отношение к изучаемой проблеме. В социологических исследованиях в качестве Г.С. чаще всего выступают совокупности индивидов – население (города, страны и т.п.), социальная группа (молодежь, безработные, бизнесмены и т.п.), аудитория средств массовой коммуникации (СМК) и др. Однако во многих случаях Г.С. могут состоять из более крупных элементов (объектов) – семей (домохозяйств), академических групп, предприятий, религиозных общин, отдельных населенных пунктов или государств и т.п.

Выборочная совокупность – часть объектов из генеральной совокупности, отобранных для изучения, с тем чтобы сделать заключение о всей генеральной совокупности.

Для того, чтобы заключение, полученное путем изучения выборки, можно было распространить на всю генеральную совокупность выборка должна обладать свойством репрезентативности.

Репрезентативность – это способность выборки представлять изучаемую совокупность. Чем точнее состав выборки представляет совокупность по изучаемым вопросам, тем выше ее репрезентативность.

ПРИМЕР: Репрезентативность можно проиллюстрировать следующим примером. Предположим, совокупность - это все учащиеся школы (600 человек из 20 классов, по 30 человек в каждом классе). Предмет изучения – отношение к курению. Выборка, состоящая из 60 учеников старших классов гораздо хуже представляет совокупность, чем выборка из тех же 60 человек, в которую войдут по 3 ученика из каждого класса. Главной причиной тому - неравное возрастное распределение в классах. Следовательно, в первом случая репрезентативность выборки низкая, а во втором случае репрезентативность высокая (при прочих равных условиях).

Типы выборок

1.Случайная выборка.

1.1.Простой случайный отбор.

1.2.Метод систематической (или механической) выборки.

1.3.Серийная (гнездовая или кластерная) выборка.

1.4.Стратифицированная выборка.

2. Неслучайная выборка (невероятностная).

2.2. Стихийная выборка.

2.3. Многоступенчатая и одноступенчатая выборки.

1.Случайная выборка.

Особенность случайной выборки заключается в том, что все единицы генеральной совокупности имеют равную вероятность попасть в выборочную совокупность. При случайной выборке выполняется принцип случайности . Основой выборки могут выступать списки работников предприятия, телефонные справочники, регистрационные списки владельцев автомобилей, списки избирателей на избирательных участках, домовые книги, а так же составленные самим социологом различные списки в зависимости от целей исследования (список улиц, на которых потом проводится отбор респондентов).

Случайная выборка обычно применяется при опросах общественного мнения перед выборами, референдумами и другими массовыми мероприятиями.

Плюсом данного метода является полное соблюдения принципа случайности и, как следствие – избежание систематических ошибок.

Недостатки данного метода:

– Необходимость наличия списка элементов генеральной совокупности.

– Сложность проведения опроса.

– Сравнительно большой объем выборки.

Часто бывает так, что необходимо проанализировать какое-либо конкретное социальное явление и получить информацию о нем. Такие задания часто возникают в ста...

Выборка - это... Определение, виды, методы и результаты выборки

От Masterweb

09.04.2018 16:00

Часто бывает так, что необходимо проанализировать какое-либо конкретное социальное явление и получить информацию о нем. Такие задания часто возникают в статистике и при статистических исследованиях. Проверить полностью определенное социальное явление чаще всего бывает невозможным. Например, как узнать мнение населения или всех жителей определенного города по какому-либо вопросу? Спрашивать абсолютно всех – дело практически невозможное и очень трудоемкое. В таких случаях нам и необходима выборка. Это именно то понятие, на котором основаны практически все исследования и анализы.

Что такое выборка

При анализе конкретного социального явления необходимо получить информацию о нем. Если взять любое исследование, то можно заметить, что исследованию и анализу подлежит не каждая единица совокупности объекта исследования. Во внимание берется только определенная часть всей этой совокупности. Вот этот процесс и является выборкой: когда исследуются только определенные единицы из множества.

Конечно же, многое зависит от вида выборки. Но есть и основные правила. Главное из них гласит, что отбор из совокупности должен быть абсолютно случайным. Единицы совокупности, которые будут использованы, не должны быть выбраны из-за какого-либо критерия. Грубо говоря, если необходимо набрать совокупность из населения определенного города и отобрать только мужчин, то в исследовании будет ошибка, потому что отбор был проведен не случайно, а отобран по гендерному признаку. Практически все методы выборки основаны на этом правиле.

Правила выборки

Для того чтобы отобранная совокупность отражала основные качества всего явления, она должна быть построена по конкретным законам, где основное внимание необходимо уделять следующим категориям:

  • выборка (выборочная совокупность);
  • генеральная совокупность;
  • репрезентативность;
  • ошибка репрезентативности;
  • единица совокупности;
  • способы построения выборки.

Особенности выборочного наблюдения и составления выборки заключаются в следующем:

  1. Все полученные результаты основаны на математических законах и правилах, то есть при правильном проведении исследования и при правильных расчетах результаты не будут искажены по субъективному признаку
  2. Дает возможность значительно быстрее и с меньшими затратами времени и ресурсов получить результат, изучая не весь массив событий, а только их часть.
  3. Может быть применено для изучения различных объектов: от конкретных вопросов, например, возраст, пол интересующей нас группы, к изучению общественного мнения или уровня материального обеспечения населения.

Выборочное наблюдение

Выборочное - это такое статистическое наблюдение, при котором исследованию подвергается не вся совокупность изучаемого, а лишь некоторая, отобранная определенным образом ее часть, а полученные результаты изучения этой части распространяются на всю совокупность. Эта часть называется выборочной совокупностью. Это единственный способ изучения большого массива объекта исследования.

Но выборочное наблюдение может использоваться только в тех случаях, когда необходимо исследовать лишь малую группу единиц. Например, при исследовании соотношения мужчин к женщинам в мире, будет использоваться выборочное наблюдение. По понятным причинам – взять во внимание каждого жителя нашей планеты невозможно.

А вот при таком же исследовании, но не всех жителей земли, а определенного 2 «А» класса в конкретной школе, определенного города, определенной страны, может обойтись без выборочного наблюдения. Ведь проанализировать весь массив объекта исследования – вполне возможно. Необходимо посчитать мальчиков и девочек этого класса - вот и будет соотношение.


Выборочная и генеральная совокупность

На самом деле все не так сложно, как звучит. В любом объекте изучения есть две системы: генеральная и выборочная совокупность. Что же это такое? Все единицы относятся к генеральной. А к выборочной – те единицы общей совокупности, которые были взяты для выборки. Если все правильно сделано, то отобранная часть будет составлять уменьшенный макет всей (генеральной) совокупности.

Если говорить о генеральной совокупности, то можно выделить всего две ее разновидности: определенная и неопределенная генеральная совокупность. Зависит от того, известно ли общее количество единиц данной системы или нет. Если это определенная генеральная совокупность, то выборку будет делать легче из-за того, что известно, какой процент от общего количества единиц будет составлять выборка.

Этот момент очень необходим в исследованиях. Например, если необходимо исследовать процент недоброкачественной продукции кондитерских изделий на конкретном заводе. Допустим, что генеральная совокупность уже определена. Точно известно, что в год это предприятие производит 1000 кондитерских изделий. Если сделать выборку 100 случайных кондитерских изделий из этой тысячи и отправить их на экспертизу, то погрешность будет минимальной. Грубо говоря, исследованию подлежало 10 % всей продукции, и по результатам можем, приняв во внимание ошибку репрезентативности, говорить о недоброкачественности всей продукции.

А если провести выборку 100 кондитерских изделий из неопределенной генеральной совокупности, где их на самом деле было, допустим, 1 млн единиц, то результат выборки и самого исследования будет критически неправдоподобным и неточным. Чувствуете разницу? Поэтому определенность генеральной совокупности в большинстве случаев крайне важна и очень сильно влияет на результат исследования.


Репрезентативность совокупности

Итак, теперь один из самых главных вопросов - какой должна быть выборка? Это самый главный момент исследования. На этом этапе необходимо рассчитать выборку и отобрать единицы из общего числа в нее. Совокупность была отобрана правильно, если определенные особенности и характеристики генеральной совокупности остается и в выборочной. Это называется репрезентативностью.

Иными словами, если после отбора часть сохраняет те же самые тенденции и особенности что и все количество исследуемого, то такая совокупность называется репрезентативной. Но не каждая определенная выборка может быть отобрана из репрезентативной совокупности. Бывают и такие объекты исследования, выборка которых просто не может быть репрезентативной. Отсюда и возникает понятие ошибки репрезентативности. Но об этом поговорим подробнее чуть больше.

Как сделать выборку

Итак, чтобы репрезентативность была максимальной, выделяют три основные правила выборки:

  1. Самым уникальным показателем числа выборки считается 20 %. Статистическая выборка в 20 % будет практически всегда давать результат максимально приближенный к действительности. В то же самое время нет необходимости переносить в собранную большую часть генеральной совокупности. 20 % выборки – это тот показатель, который выработан многими исследованиями. Приведем еще немного теории. Чем больше выборка, тем меньше ошибка репрезентативности и точнее результат исследования. Чем ближе будет выборочная совокупность к генеральной по количеству единиц, тем более точными и правильными будут результаты. Ведь если исследовать всю систему, тогда результат будет 100 %. Но здесь уже нет выборки. Это те исследования, в которых исследуется весь массив, все единицы, поэтому это нас не интересует.
  2. В случае нецелесообразности обработки 20 % генеральной совокупности допускается изучение единиц совокупности в количестве не менее 1001. Это также один из показателей исследования массива объекта исследования, который выработался со временем. Конечно же, он не даст точных результатов при больших массивах исследования, но максимально приблизит к возможной точности выборки.
  3. В статистике существует множество формул и сведенных таблиц. В зависимости от объекта исследования и от критерия выборки, существует целесообразность выбора той или иной формулы. Но этот пункт используется в сложных и многоэтапных исследованиях.

Погрешность (ошибка) репрезентативности

Главной характеристикой качества выбранной выборки является понятие «погрешности репрезентативности». Что же это такое? Это определенные расхождения между показателями выборочного и сплошного наблюдения. По показателям погрешности репрезентативность делят на надежную, обычную и приближенную. Иначе говоря, допустимыми являются отклонения в размере до 3 %, от 3 до 10 % и от 10 до 20 % соответственно. Хотя в статистике желательно, чтобы погрешность не превышал 5-6 %. В противном случае есть повод говорить о недостаточной репрезентативности выборки. Для вычисления погрешности репрезентативности и того, как она влияет на выборочную или генеральную совокупность, во внимание берутся многие факторы:

  1. Вероятность, с которой необходимо получить точный результат.
  2. Количества единиц выборочной совокупности. Как уже упоминалось ранее, чем меньше единиц составит выборка, тем больше будет ошибка репрезентативности, и наоборот.
  3. Однородность исследуемой совокупности. Чем более разнородной является совокупность, тем больше будет погрешность репрезентативности. Возможность совокупности быть репрезентативной зависит от однородности всех ее составляющих единиц.
  4. Способ отбора единиц в выборочную совокупность.

В конкретно заданных исследованиях процент погрешности среднего значения обычно задается самим исследователем на основании программы наблюдения и согласно данным ранее проведенных исследований. Как правило, считается допустимой предельная ошибка выборки (ошибка репрезентативности) в пределах 3-5 %.


Больше – не всегда лучше

Также стоит помнить, что главное при организации выборочного наблюдения - это доведение его объема до допустимого минимума. При этом не следует стремиться к чрезмерному уменьшению границ погрешности выборки, так как это может привести к неоправданному увеличению объема данных выборки и, следовательно, к повышению расходов на проведение выборочного наблюдения.

В то же время нельзя и чрезмерно увеличивать размер погрешности репрезентативности. Ведь в этом случае, хотя и произойдет уменьшение объема выборочной совокупности, это приведет к ухудшению достоверности полученных результатов.

Какие вопросы обычно ставится перед исследователем

Любое исследование если и проводится, то для какой-то цели и для получения каких-то результатов. При проведении выборочного исследования, как правило, ставятся начальные вопросы:

  1. Определение необходимого количества единиц выборочной совокупности, то есть то, сколько единиц будет исследоваться. К тому же, для точного исследования совокупность должна быть репрезентативной.
  2. Расчет погрешности репрезентативности с установленным уровнем вероятности. Сразу стоит отметить, что выборочных исследований не бывает с уровнем вероятности 100 %. Если та инстанция, которая проводила изучение определенного сегмента, утверждает, что их результаты точны с вероятностью 100 %, то это ложь. Многолетняя практика уже установила процент вероятности правильно проведенного выборочного исследования. Этот показатель равняется 95,4 %.

Способы отбора единиц исследования в выборку

Не каждая выборка является репрезентативной. Иногда один и тот же признак по-разному выражен в целом и в ее части. Для достижения требований репрезентативности целесообразным является использование различных приемов создания выборки. Причем использование того или иного способа зависит от конкретных обстоятельств. Среди таких приемов создания выборки выделяют:

  • случайный отбор;
  • механический отбор;
  • типичный отбор;
  • серийный (гнездовой) отбор.

Случайный отбор представляет собой систему мероприятий, направленных на случайный отбор единиц совокупности, когда вероятность попасть в выборку является равной для всех единиц генеральной совокупности. Этот прием целесообразно применять только в случае однородности и небольшого количества присущих ей признаков. В противном случае некоторые характерные черты рискуют быть не отраженным в выборке. Признаки случайного отбора лежат в основе всех других способов построения выборки.

При механическом отбор единиц проводится через определенный интервал. Если необходимо сформировать выборку конкретных преступлений, можно изымать из всех карточек статистического учета зарегистрированных преступлений каждую 5-ю, 10-ю или 15-ю карточку в зависимости от их общего количества и имеющихся размеров выборки. Недостатком этого способа является то, что перед отбором необходимо иметь полный учет единиц совокупности, затем нужно провести ранжирование и только после этого можно проводить выборку с определенным интервалом. Этот метод занимает много времени, поэтому он и не часто используется.


Типичный (районированный) отбор – вид выборки, при котором генеральную совокупность разделяют на однородные группы по определенному признаку. Иногда исследователи употребляют вместо «групп» другие термины: «районы» и «зоны». Затем из каждой группы в случайном порядке отбирается определенное количество единиц пропорционально удельному весу группы в общей совокупности. Типичный отбор часто осуществляется в несколько этапов.

Серийный отбор - это такой метод, при котором отбор единиц проводится группами (сериями) и обследованию подлежат все единицы отобранной группы (серии). Преимуществом этого способа является то, что иногда отобрать отдельные единицы сложнее, чем серии, например, при изучении личности, которая отбывает наказание. В рамках отобранных районов, зон применяется изучение всех единиц без исключения, например, изучение всех лиц, отбывающих наказание в каком-то определенном учреждении.

Улица Киевян, 16 0016 Армения, Ереван +374 11 233 255

Статистическая совокупность — множество единиц, обладающих массовостью, типичностью, качественной однородностью и наличием вариации.

Статистическая совокупность состоит из материально существующих объектов (Работники, предприятия, страны, регионы), является объектом .

Единица совокупности — каждая конкретная единица статистической совокупности.

Одна и та же статистическая совокупность может быть однородна по одному признаку и неоднородна по другому.

Качественная однородность — сходство всех единиц совокупности по какому-либо признаку и несходство по всем остальным.

В статистической совокупности отличия одной единицы совокупности от другой чаще имеют количественную природу. Количественные изменения значений признака разных единиц совокупности называются вариацией.

Вариация признака — количественное изменение признака (для количественного признака) при переходе от одной единицы совокупности к другой.

Признак — это свойство, характерная черта или иная особенность единиц, объектов и явлений, которая может быть наблюдаема или измерена. Признаки делятся на количественные и качественные. Многообразие и изменчивость величины признака у отдельных единиц совокупности называется вариацией .

Атрибутивные (качественные) признаки не поддаются числовому выражению (состав населения по полу). Количественные признаки имеют числовое выражение (состав населения по возрасту).

Показатель — это обобщающая количественно качественная характеристика какого-либо свойства единиц или совокупности в целом в конкретных условиях времени и места.

Система показателей — это совокупность показателей всесторонне отражающих изучаемое явление.

Например, изучается зарплата:
  • Признак — оплата труда
  • Статистическая совокупность — все работники
  • Единица совокупности — каждый работник
  • Качественная однородность — начисленная зарплата
  • Вариация признака — ряд цифр

Генеральная совокупность и выборка из нее

Основу составляет множество данных, полученных в результате измерения одного или нескольких признаков. Реально наблюдаемая совокупность объектов, статистически представленная рядом наблюдений случайной величины , является выборкой , а гипотетически существующая (домысливаемая) — генеральной совокупностью . Генеральная совокупность может быть конечной (число наблюдений N = const ) или бесконечной (N = ∞ ), а выборка из генеральной совокупности — это всегда результат ограниченного ряда наблюдений. Число наблюдений , образующих выборку, называется объемом выборки . Если объем выборки достаточно велик (n → ∞ ) выборка считается большой , в противном случае она называется выборкой ограниченного объема . Выборка считается малой , если при измерении одномерной случайной величины объем выборки не превышает 30 (n <= 30 ), а при измерении одновременно нескольких (k ) признаков в многомерном пространстве отношение n к k не превышает 10 (n/k < 10) . Выборка образует вариационный ряд , если ее члены являются порядковыми статистиками , т. е. выборочные значения случайной величины Х упорядочены по возрастанию (ранжированы), значения же признака называются вариантами .

Пример . Практически одна и та же случайно отобранная совокупность объектов — коммерческих банков одного административного округа Москвы, может рассматриваться как выборка из генеральной совокупности всех коммерческих банков этого округа, и как выборка из генеральной совокупности всех коммерческих банков Москвы, а также как выборка из коммерческих банков страны и т.д.

Основные способы организации выборки

Достоверность статистических выводов и содержательная интерпретация результатов зависит от репрезентативности выборки, т.е. полноты и адекватности представления свойств генеральной совокупности, по отношению к которой эту выборку можно считать представительной. Изучение статистических свойств совокупности можно организовать двумя способами: с помощью сплошного и несплошного . Сплошное наблюдение предусматривает обследование всех единиц изучаемой совокупности , а несплошное (выборочное) наблюдение — только его части.

Существуют пять основных способов организации выборочного наблюдения:

1. простой случайный отбор , при котором объектов случайно извлекаются из генеральной совокупности объектов (например с помощью таблицы или датчика случайных чисел), причем каждая из возможных выборок имеют равную вероятность. Такие выборки называются собственно-случайными ;

2. простой отбор с помощью регулярной процедуры осуществляется с помощью механической составляющей (например, даты, дня недели, номера квартиры, буквы алфавита и др.) и полученные таким способом выборки называются механическими ;

3. стратифицированный отбор заключается в том, что генеральная совокупность объема подразделяется на подсовокупности или слои (страты) объема так что . Страты представляют собой однородные объекты с точки зрения статистических характеристик (например, население делится на страты по возрастным группам или социальной принадлежности; предприятия — по отраслям). В этом случае выборки называются стратифицированными (иначе, расслоенными, типическими, районированными );

4. методы серийного отбора используются для формирования серийных или гнездовых выборок . Они удобны в том случае, если необходимо обследовать сразу "блок" или серию объектов (например, партию товара, продукцию определенной серии или население при территориально-административном делении страны). Отбор серий можно осуществить собственно-случайным или механическим способом. При этом проводится сплошное обследование определенной партии товара, или целой территориальной единицы (жилого дома или квартала);

5. комбинированный (ступенчатый) отбор может сочетать в себе сразу несколько способов отбора (например, стратифицированный и случайный или случайный и механический); такая выборка называется комбинированной .

Виды отбора

По виду различаются индивидуальный, групповой и комбинированный отбор. При индивидуальном отборе в выборочную совокупность отбираются отдельные единицы генеральной совокупности, при групповом отборе — качественно однородные группы (серии) единиц, а комбинированный отбор предполагает сочетание первого и второго видов.

По методу отбора различают повторную и бесповторную выборку.

Бесповторным называется отбор, при котором попавшая в выборку единица не возвращается в исходную совокупность и в дальнейшем выборе не участвует; при этом численность единиц генеральной совокупности N сокращается в процессе отбора. При повторном отборе попавшая в выборку единица после регистрации возвращается в генеральную совокупность и таким образом сохраняет равную возможность наряду с другими единицами быть использованной в дальнейшей процедуре отбора; при этом численность единиц генеральной совокупности N остается неизменной (метод в социально-экономических исследованиях применяется редко). Однако, при большом N (N → ∞) формулы для бесповторного отбора приближаются к аналогичным для повторного отбора и практически чаще используются последние (N = const ).

Основные характеристики параметров генеральной и выборочной совокупности

В основе статистических выводов проведенного исследования лежит распределение случайной величины , наблюдаемые же значения (х 1 , х 2 , … , х n) называются реализациями случайной величины Х (n — объем выборки). Распределение случайной величины в генеральной совокупности носит теоретический, идеальный характер, а ее выборочный аналог является эмпирическим распределением. Некоторые теоретические распределения заданы аналитически, т.е. их параметры определяют значение функции распределения в каждой точке пространства возможных значений случайной величины . Для выборки же функцию распределения определить трудно, а иногда невозможно, поэтому параметры оценивают по эмпирическим данным, а затем их подставляют в аналитическое выражение, описывающее теоретическое распределение. При этом предположение (или гипотеза ) о виде распределения может быть как статистически верным, так и ошибочным. Но в любом случае восстановленное по выборке эмпирическое распределение лишь грубо характеризует истинное. Важнейшими параметрами распределений являются математическое ожидание и дисперсия .

По своей природе распределения бывают непрерывными и дискретными . Наиболее известным непрерывным распределением является нормальное . Выборочными аналогами параметров идля него являются: среднее значение и эмпирическая дисперсия . Среди дискретных в социально-экономических исследованиях наиболее часто применяется альтернативное (дихотомическое) распределение. Параметр математического ожидания этого распределения выражает относительную величину (или долю ) единиц совокупности, которые обладают изучаемым признаком (она обозначена буквой ); доля совокупности, не обладающая этим признаком, обозначается буквой q (q = 1 — p) . Дисперсия же альтернативного распределения также имеет эмпирический аналог .

В зависимости от вида распределения и от способа отбора единиц совокупности по-разному вычисляются характеристики параметров распределения. Основные из них для теоретического и эмпирического распределений приведены в табл. 1.

Долей выборки k n называется отношение числа единиц выборочной совокупности к числу единиц генеральной совокупности:

k n = n/N .

Выборочная доля w — это отношение единиц, обладающих изучаемым признаком x к объему выборки n :

w = n n /n .

Пример. В партии товара, содержащей 1000 ед., при 5% выборке доля выборки k n в абсолютной величине составляет 50 ед. (n = N*0,05); если же в этой выборке обнаружено 2 бракованных изделия, то выборочная доля брака w составит 0,04 (w = 2/50 = 0,04 или 4%).

Так как выборочная совокупность отлична от генеральной, то возникают ошибки выборки .

Таблица 1. Основные параметры генеральной и выборочной совокупностей

Ошибки выборки

При любом (сплошном и выборочном) могут встретиться ошибки двух видов: регистрации и репрезентативности. Ошибки регистрации могут иметь случайный и систематический характер. Случайные ошибки складываются из множества различных неконтролируемых причин, носят непреднамеренный характер и обычно по совокупности уравновешивают друг друга (например, изменения показателей прибора при температурных колебаниях в помещении).

Систематические ошибки тенденциозны, так как нарушают правила отбора объектов в выборку (например, отклонения в измерениях при изменении настройки измерительного прибора).

Пример. Для оценки социального положения населения в городе предусмотрено обследовать 25% семей. Если при этом выбор каждой четвертой квартиры основан на ее номере, то существует опасность отобрать все квартиры только одного типа (например, однокомнатные), что обеспечит систематическую ошибку и исказит результаты; выбор же номера квартиры по жребию более предпочтителен, так как ошибка будет случайной.

Ошибки репрезентативности присущи только выборочному наблюдению, их невозможно избежать и они возникают в результате того, что выборочная совокупность не полностью воспроизводит генеральную. Значения показателей, получаемых по выборке, отличаются от показателей этих же величин в генеральной совокупности (или получаемых при сплошном наблюдении).

Ошибка выборочного наблюдения есть разность между значением параметра в генеральной совокупности и ее выборочным значением. Для среднего значения количественного признака она равна: , а для доли (альтернативного признака) — .

Ошибки выборки свойственны только выборочным наблюдениям. Чем больше эти ошибки, тем больше эмпирическое распределение отличается от теоретического. Параметры эмпирического распределения и являются случайными величинами, следовательно, ошибки выборки также являются случайными величинами, могут принимать для разных выборок разные значения и поэтому принято вычислять среднюю ошибку .

Средняя ошибка выборки есть величина , выражающая среднее квадратическое отклонение выборочной средней от математического ожидания. Эта величина при соблюдении принципа случайного отбора зависит прежде всего от объема выборки и от степени варьирования признака: чем больше и чем меньше вариация признака (следовательно, и значение ), тем меньше величина средней ошибки выборки . Соотношение между дисперсиями генеральной и выборочной совокупностей выражается формулой:

т.е. при достаточно больших можно считать, что . Средняя ошибка выборки показывает возможные отклонения параметра выборочной совокупности от параметра генеральной. В табл. 2 приведены выражения для вычисления средней ошибки выборки при разных методах организации наблюдения.

Таблица 2. Средняя ошибка (m) выборочных средней и доли для разных видов выборки

Где - средняя из внутригрупповых выборочных дисперсий для непрерывного признака;

Средняя из внутригрупповых дисперсий доли;

— число отобранных серий, — общее число серий;

,

где — средняя -й серии;

— общая средняя по всей выборочной совокупности для непрерывного признака;

,

где — доля признака в -й серии;

— общая доля признака по всей выборочной совокупности.

Однако о величине средней ошибки можно судить лишь с определенной, вероятностью Р (Р ≤ 1). Ляпунов А.М. доказал, что распределение выборочных средних , a следовательно, и их отклонений от генеральной средней, при достаточно большом числе приближенно подчиняется нормальному закону распределения при условии, что генеральная совокупность обладает конечной средней и ограниченной дисперсией.

Математически это утверждение для средней выражается в виде:

а для доли выражение (1) примет вид:

где - есть предельная ошибка выборки , которая кратна величине средней ошибки выборки , а коэффициент кратности — есть критерий Стьюдента ("коэффициент доверия"), предложенный У.С. Госсетом (псевдоним "Student"); значения для разного объема выборки хранятся в специальной таблице.

Значения функции Ф(t) при некоторых значениях t равны:

Следовательно, выражение (3) может быть прочитано так: с вероятностью Р = 0,683 (68,3%) можно утверждать, что разность между выборочной и генеральной средней не превысит одной величины средней ошибки m (t = 1) , с вероятностью Р = 0,954 (95,4%) — что она не превысит величины двух средних ошибок m (t = 2) , с вероятностью Р = 0,997 (99,7%) — не превысит трех значений m (t = 3) . Таким образом, вероятность того, что эта разность превысит трехкратную величину средней ошибки определяет уровень ошибки и составляет не более 0,3% .

В табл. 3 приведены формулы для вычисления предельной ошибки выборки.

Таблица 3. Предельная ошибка (D) выборки для средней и доли (р) для разных видов выборочного наблюдения

Распространение выборочных результатов на генеральную совокупность

Конечной целью выборочного наблюдения является характеристика генеральной совокупности. При малых объемах выборки эмпирические оценки параметров ( и ) могут существенно отклоняться от их истинных значений ( и ). Поэтому возникает необходимость установить границы, в пределах которых для выборочных значений параметров ( и ) лежат истинные значения ( и ).

Доверительным интервалом какого-либо параметра θгенеральной совокупности называется случайная область значений этого параметра, которая с вероятностью близкой к 1 (надежностью ) содержит истинное значение этого параметра.

Предельная ошибка выборки Δ позволяет определить предельные значения характеристик генеральной совокупности и их доверительные интервалы , которые равны:

Нижняя граница доверительного интервала получена путем вычитания предельной ошибки из выборочного среднего (доли), а верхняя — путем ее добавления.

Доверительный интервал для средней использует предельную ошибку выборки и для заданного уровня достоверности определяется по формуле:

Это означает, что с заданной вероятностью Р , которая называется доверительным уровнем и однозначно определяется значением t , можно утверждать, что истинное значение средней лежит в пределах от ,а истинное значение доли — в пределах от

При расчете доверительного интервала для трех стандартных доверительных уровней Р = 95%, Р = 99% и Р = 99,9% значение выбирается по . Приложения в зависимости от числа степеней свободы . Если объем выборки достаточно велик, то соответствующие этим вероятностям значения t равны: 1,96, 2,58 и 3,29 . Таким образом, предельная ошибка выборки позволяет определить предельные значения характеристик генеральной совокупности и их доверительные интервалы:

Распространение результатов выборочного наблюдения на генеральную совокупность в социально-экономических исследованиях имеет свои особенности, так как требует полноты представительности всех ее типов и групп. Основой для возможности такого распространения является расчет относительной ошибки :

где Δ % - относительная предельная ошибка выборки; , .

Существуют два основных метода распространения выборочного наблюдения на генеральную совокупность: прямой пересчет и способ коэффициентов .

Сущность прямого пересчета заключается в умножении выборочного среднего значения!!\overline{x} на объем генеральной совокупности .

Пример . Пусть среднее число детей ясельного возраста в городе оценено выборочным методом и составило человека. Если в городе 1000 молодых семей, то число необходимых мест в муниципальных детских яслях получают умножением этой средней на численность генеральной совокупности N = 1000, т.е. составит 1200 мест.

Способ коэффициентов целесообразно использовать в случае, когда выборочное наблюдение проводится с целью уточнения данных сплошного наблюдения.

При этом используют формулу:

где все переменные — это численность совокупности:

Необходимый объем выборки

Таблица 4. Необходимый объем (n) выборки для разных видов организации выборочного наблюдения

При планировании выборочного наблюдения с заранее заданным значением допустимой ошибки выборки необходимо правильно оценить требуемый объем выборки . Этот объем может быть определен на основе допустимой ошибки при выборочном наблюдении исходя из заданной вероятности , гарантирующей допустимую величину уровня ошибки (с учетом способа организации наблюдения). Формулы для определения необходимой численности выборки n легко получить непосредственно из формул предельной ошибки выборки. Так, из выражения для предельной ошибки:

непосредственно определяется объем выборки n :

Эта формула показывает, что с уменьшением предельной ошибки выборки Δ существенно увеличивается требуемый объем выборки , который пропорционален дисперсии и квадрату критерия Стьюдента .

Для конкретного способа организации наблюдения требуемый объем выборки вычисляется согласно формулам, приведенным в табл. 9.4.

Практические примеры расчета

Пример 1. Вычисление среднего значения и доверительного интервала для непрерывного количественного признака.

Для оценки скорости расчета с кредиторами в банке проведена случайная выборка 10 платежных документов. Их значения оказались равными (в днях): 10; 3; 15; 15; 22; 7; 8; 1; 19; 20.

Необходимо с вероятностью Р = 0,954 определить предельную ошибку Δ выборочной средней и доверительные пределы среднего времени расчетов.

Решение. Среднее значение вычисляется по формуле из табл. 9.1 для выборочной совокупности

Дисперсия вычисляется по формуле из табл. 9.1.

Средняя квадратическая погрешность дня.

Ошибка средней вычисляется по формуле:

т.е. среднее значение равно x ± m = 12,0 ± 2,3 дней .

Достоверность среднего составила

Предельную ошибку вычислим по формуле из табл. 9.3 для повторного отбора, так как численность генеральной совокупности неизвестна, и для Р = 0,954 уровня достоверности.

Таким образом, среднее значение равно `x ± D = `x ± 2m = 12,0 ± 4,6, т.е. его истинное значение лежит в пределах от 7,4 до16,6 дней.

Использование таблицы Стьюдента. Приложения позволяет заключить, что для n = 10 — 1 = 9 степеней свободы полученное значение достоверно с уровнем значимости a £ 0,001, т.е. полученное значение среднего достоверно отличается от 0.

Пример 2. Оценка вероятности (генеральной доли) р.

При механическом выборочном способе обследования социального положения 1000 семей выявлено, что доля малообеспеченных семей составила w = 0,3 (30%) (выборка была 2% , т.е. n/N = 0,02 ). Необходимо с уровнем достоверности р = 0,997 определить показатель р малообеспеченных семей во всем регионе.

Решение. По представленным значениям функции Ф(t) найдем для заданного уровня достоверности Р = 0,997 значение t = 3 (см. формулу 3). Предельную ошибку доли w определим по формуле из табл. 9.3 для бесповторного отбора (механическая выборка всегда является бесповторной):

Предельная относительная ошибка выборки в % составит:

Вероятность (генеральная доля) малообеспеченных семей в регионе составит р=w±Δ w , а доверительные пределы р вычисляются исходя из двойного неравенства:

w — Δ w ≤ p ≤ w — Δ w , т.е. истинное значение р лежит в пределах:

0,3 — 0,014 < p <0,3 + 0,014, а именно от 28,6% до 31,4%.

Таким образом, с вероятностью 0,997 можно утверждать, что доля малообеспеченных семей среди всех семей региона составляет от 28,6% до 31,4%.

Пример 3. Вычисление среднего значения и доверительного интервала для дискретного признака, заданного интервальным рядом.

В табл. 5. задано распределение заявок на изготовление заказов по срокам их выполнения предприятием.

Таблица 5. Распределение наблюдений по срокам появления

Решение. Средний срок выполнения заявок вычисляется по формуле:

Средний срок составит:

= (3*20 + 9*80 + 24*60 + 48*20 + 72*20)/200 = 23,1 мес.

Тот же ответ получим, если используем данные о р i из предпоследней колонки табл. 9.5, используя формулу:

Заметим, что середина интервала для последней градации находится путем искусственного ее дополнения шириной интервала предыдущей градации равной 60 — 36 = 24 мес.

Дисперсия вычисляется по формуле

где х i - середина интервального ряда.

Следовательно!!\sigma = \frac {20^2 + 14^2 + 1 + 25^2 + 49^2}{4}, а средняя квадратическая погрешность .

Ошибка средней вычисляется по формуле мес., т.е. среднее значение равно!!\overline{x} ± m = 23,1 ± 13,4.

Предельную ошибку вычислим по формуле из табл. 9.3 для повторного отбора, так как численность генеральной совокупности неизвестна, для 0,954 уровня достоверности:

Таким образом, среднее значение равно:

т.е. его истинное значение лежит в пределах от 0 до 50 мес.

Пример 4. Для определения скорости расчетов с кредиторами N = 500 предприятий корпорации в коммерческом банке необходимо провести выборочное исследование методом случайного бесповторного отбора. Определить необходимый объем выборки n, чтобы с вероятностью Р = 0,954 ошибка среднего значения выборки не превышала 3-х дней, если пробные оценки показали, что среднее квадратическое отклонение s составило 10 дней.

Решение . Для определения числа необходимых исследований n воспользуемся формулой для бесповторного отбора из табл. 9.4:

В ней значение t определяется из для уровня достоверности Р = 0,954. Оно равно 2. Среднее квадратическое значение s = 10, объем генеральной совокупности N = 500, а предельная ошибка среднего значения Δ x = 3. Подставляя эти значения в формулу, получим:

т.е. выборку достаточно составить из 41 предприятия, чтобы оценить требуемый параметр — скорость расчетов с кредиторами.

Суммарная численность объектов наблюдения (люди, домохозяйства, предприятия, населенные пункты и т.д.), обладающих определенным набором признаков (пол, возраст, доход, численность, оборот и т.д.), ограниченная в пространстве и времени. Примеры генеральных совокупностей

  • Все жители Москвы (10,6 млн. человек по данным переписи 2002 года)
  • Мужчины-Москвичи (4,9 млн. человек по данным переписи 2002 года)
  • Юридические лица России (2,2 млн. на начало 2005 года)
  • Розничные торговые точки, осуществляющие продажу продуктов питания (20 тысяч на начало 2008 года) и т.д.

Выборка (Выборочная совокупность)

Часть объектов из генеральной совокупности, отобранных для изучения, с тем чтобы сделать заключение обо всей генеральной совокупности. Для того чтобы заключение, полученное путем изучения выборки, можно было распространить на всю генеральную совокупность, выборка должна обладать свойством репрезентативности.

Репрезентативность выборки

Свойство выборки корректно отражать генеральную совокупность. Одна и та же выборка может быть репрезентативной и нерепрезентативной для разных генеральных совокупностей.
Пример:

  • Выборка, целиком состоящая из москвичей, владеющих автомобилем, не репрезентирует все население Москвы.
  • Выборка из российских предприятий численностью до 100 человек не репрезентирует все предприятия России.
  • Выборка из москвичей, совершающих покупки на рынке, не репрезентирует покупательское поведение всех москвичей.

В то же время, указанные выборки (при соблюдении прочих условий) могут отлично репрезентировать москвичей-автовладельцев, небольшие и средние российские предприятия и покупателей, совершающих покупки на рынках соответственно.
Важно понимать, что репрезентативность выборки и ошибка выборки – разные явления. Репрезентативность, в отличие от ошибки никак не зависит от размера выборки.
Пример:
Как бы мы не увеличивали количество опрошенных москвичей-автовладельцев, мы не сможем репрезентировать этой выборкой всех москвичей.

Ошибка выборки (доверительный интервал)

Отклонение результатов, полученных с помощью выборочного наблюдения от истинных данных генеральной совокупности.
Ошибка выборки бывает двух видов – статистическая и систематическая. Статистическая ошибка зависит от размера выборки. Чем больше размер выборки, тем она ниже.
Пример:
Для простой случайной выборки размером 400 единиц максимальная статистическая ошибка (с 95% доверительной вероятностью) составляет 5%, для выборки в 600 единиц – 4%, для выборки в 1100 единиц – 3% Обычно, когда говорят об ошибке выборки, подразумевают именно статистическую ошибку.
Систематическая ошибка зависит от различных факторов, оказывающих постоянное воздействие на исследование и смещающих результаты исследования в определенную сторону.
Пример:

  • Использование любых вероятностных выборок занижает долю людей с высоким доходом, ведущих активный образ жизни. Происходит это в силу того, что таких людей гораздо сложней застать в каком-либо определенном месте (например, дома).
  • Проблема респондентов, отказывающихся отвечать на вопросы (доля «отказников» в Москве, для разных опросов, колеблется от 50% до 80%)

В некоторых случаях, когда известны истинные распределения, систематическую ошибку можно нивелировать введением квот или перевзвешиванием данных, но в большинстве реальных исследований даже оценить ее бывает достаточно проблематично.

Типы выборок

Выборки делятся на два типа:

  • вероятностные
  • невероятностные

1. Вероятностные выборки
1.1 Случайная выборка (простой случайный отбор)
Такая выборка предполагает однородность генеральной совокупности, одинаковую вероятность доступности всех элементов, наличие полного списка всех элементов. При отборе элементов, как правило, используется таблица случайных чисел.
1.2 Механическая (систематическая) выборка
Разновидность случайной выборки, упорядоченная по какому-либо признаку (алфавитный порядок, номер телефона, дата рождения и т.д.). Первый элемент отбирается случайно, затем, с шагом ‘n’ отбирается каждый ‘k’-ый элемент. Размер генеральной совокупности, при этом – N=n*k
1.3 Стратифицированная (районированная)
Применяется в случае неоднородности генеральной совокупности. Генеральная совокупность разбивается на группы (страты). В каждой страте отбор осуществляется случайным или механическим образом.
1.4 Серийная (гнездовая или кластерная) выборка
При серийной выборке единицами отбора выступают не сами объекты, а группы (кластеры или гнёзда). Группы отбираются случайным образом. Объекты внутри групп обследуются сплошняком.

2.Невероятностные выборки
Отбор в такой выборке осуществляется не по принципам случайности, а по субъективным критериям – доступности, типичности, равного представительства и т.д..
2.1. Квотная выборка
Изначально выделяется некоторое количество групп объектов (например, мужчины в возрасте 20-30 лет, 31-45 лет и 46-60 лет; лица с доходом до 30 тысяч рублей, с доходом от 30 до 60 тысяч рублей и с доходом свыше 60 тысяч рублей) Для каждой группы задается количество объектов, которые должны быть обследованы. Количество объектов, которые должны попасть в каждую из групп, задается, чаще всего, либо пропорционально заранее известной доле группы в генеральной совокупности, либо одинаковым для каждой группы. Внутри групп объекты отбираются произвольно. Квотные выборки используются в достаточно часто.
2.2. Метод снежного кома
Выборка строится следующим образом. У каждого респондента, начиная с первого, просятся контакты его друзей, коллег, знакомых, которые подходили бы под условия отбора и могли бы принять участие в исследовании. Таким образом, за исключением первого шага, выборка формируется с участием самих объектов исследования. Метод часто применяется, когда необходимо найти и опросить труднодоступные группы респондентов (например, респондентов, имеющих высокий доход, респондентов, принадлежащих к одной профессиональной группе, респондентов, имеющих какие-либо схожие хобби/увлечения и т.д.)
2.3 Стихийная выборка
Опрашиваются наиболее доступные респонденты. Типичные примеры стихийных выборок – в газетах/журналах, отданные респондентам на самозаполнение, большинство интернет-опросов. Размер и состав стихийных выборок заранее не известен, и определяется только одним параметром – активностью респондентов.
2.4 Выборка типичных случаев
Отбираются единицы генеральной совокупности, обладающие средним (типичным) значением признака. При этом возникает проблема выбора признака и определения его типичного значения.

Курс лекций по теории статистики

Более подробную информацию по выборочным наблюдениям можно получить просмотрев .

Выборка— это множество данных, взятых с помощью определённых процедур из генеральной совокупности для исследовательского анализа. Репрезентативность - это свойство воспроизведения представления о целом по его части. По иному, это возможность распространения представления о части на целое, которое эту часть включает в себя.

Репрезентативность выборки — это показатель, заключающийся в том, что выборка должна полно и достоверно отображать признаки той совокупности, частью которой она является. Её также можно определять как свойство выборки наиболее полно представлять характеристики генеральной совокупности, существенные с точки зрения цели исследования.

Допустим, что генеральная совокупность — все ученики школы (900 человек из 30 классов, по 30 человек в каждом классе). Объект исследования — отношение школьников к курению. Выборочная совокупность, состоящая из 90 учащихся только намного хуже представит всю совокупность, чем выборка из тех же 90 учеников, куда вошли бы из каждого класса по 3 ученика. Главная причина — неравное распределение по возрастам. Таким образом, в первом случае репрезентативность выборки будет низкой. Во втором случае - высокой.

В социологии говорят, что существует репрезентативность выборки и её нерепрезентативность.

В качестве примера нерепрезентативной выборки можно привести классический случай, произошедший в 1936 году в США во время президентских выборов.

Журнал «Литэрари дайджест», который до этого весьма успешно прогнозировал результаты предыдущих выборов, на этот раз ошибся в своих прогнозах, хотя разослал несколько миллионов письменных вопросов подписчикам, а также респондентам, которых они выбрали из телефонных книг и из списков регистрации автомобилей. В 1/4 бюллетеней, которые вернулись заполненные обратно, голоса распределились следующим образом: 57 % отдали первенство кандидату от республиканцев по имени Альф Лэндон, а 41 % отдали предпочтение действующему президенту - демократу Франклину Рузвельту.

В действительности, на выборах победил Ф. Рузвельт, который набрал почти 60 % голосов. Ошибка «Литэрари дайджест» была в следующем. Они захотели увеличить репрезентативность выборки. А так как они знали, что большинство их подписчиков относят себя к республиканцам, то они решили расширить выборку за счёт респондентов, выбранных ими из телефонных книг и автомобильных регистрационных списков. Но они не учли существующих реалий и фактически отобрали ещё больше сторонников республиканцев, потому что во времена иметь автомобили и телефоны мог позволить себе средний и высший класс. А это и были по большей части республиканцы, а не демократы.

Существуют различные виды выборки: простая случайная, серийная, типическая, механическая и комбинированная.

Простая случайная выборка состоит в отборе из всей совокупности изучаемых единиц наугад без какой-либо системы.

Механическую выборку применяют тогда, когда в генеральной совокупности есть упорядоченность, например, имеется некая последовательность единиц работников, избирательные списки, номера телефонов респондентов, номера квартир и домов и другое).

Типический отбор используется тогда, когда всю совокупность можно разделить на группы по типам. При работе с населением такими могут быть, например, образовательные, возрастные, социальные группы, при исследовании предприятий - отрасль или отдельная организация и др.

Серийный отбор удобен тогда, когда единицы объединены в небольшие серии или группы. Такой серией могут быть партии готовой продукции, школьные классы, и другие группы.

Комбинированная выборка предполагает использование всех предыдущих видов выборки в той или иной комбинации.