Интервальное оценивание генеральной доли. Основные принципы определения объема выборки. Определение объёма выборки

Если тип выборки говорит о том, как попадают люди в выборочную совокупность , то объем выборки сообщает о том, какое их количество попало сюда .

Объем выборки – количество единиц выборочной совокупности .

Поскольку выборочная совокупность (или выборка, что одно и то же) – это часть генеральной совокупности, отобранной с помощью специальных методов, – ее объем всегда меньше объема генеральной . Поэтому так важно, чтобы часть не искажала представления о целом, т.е. была репрезентативной.

Социологов, особенно проводящих эмпирические исследования, часто волнует вопрос о том, какое количество человек следует опросить для получения достоверной информации. Институт Гэллапа в США проводит регулярные опросы по национальной выборке объемом в 1500 ч еловек и достигает поразительной точности (ошибка выборки составляет от 1 до 1,5%)1. Центр <Социо-Экспресс> Института социологии РАН проводит исследования на выборке объемом в 2000 человек, при этом ошибка выборки не превышает 3%.

7. Репрезентативность – свойство выборочной совокупности представлять основные параметры генеральной совокупности.

Если совпадения нет, говорят об ошибке репрезентативности –мере отклонения статистической структуры выборки от структуры соответствующей генеральной совокупности.

Предположим, что средний ежемесячный семейный доход пенсионеров в генеральной совокупности составляет 2 тыс. руб., а в выборочной - 6 тыс. руб. Это означает, что социолог опрашивал только зажиточную часть пенсионеров, в его исследование вкралась ошибка репрезентативности. Иными словами, ошибкой репрезентативности называется расхождение между двумя совокупностями – генеральной и выборочной. Последняя выступает и как объект обследования и как средство получения информации о генеральной совокупности.

8. Ошибка выборки – отклонение средних характеристик выборочной совокупности от средних характеристик генеральной совокупности.

На практике она определяется путем сравнения известных характеристик генеральной совокупности с выборочными средними величинами. В социологии при обследованиях взрослого населения чаще всего используют данные переписей населения, текущего статистического учета, результаты предшествующих опросов.

В опросах института Дж. Гэллапа репрезентативность контролируется по имеющимся в национальных переписях данным о распределении населения по

· полу,

· возрасту,

· образованию,

· доходу,

· профессии,

· расовой принадлежности,

· месту проживания,

· величине населенного пункта.

Всероссийский центр изучения общественного мнения (ВЦИОМ ) использует для подобных целей такие показатели, как

· пол,

· возраст,

· образование,

· тип поселения,

· семейное положение,

· сфера занятости,

· должностной статус респондента ,

которые заимствуют в Государственном комитете по статистике РФ. В том и другом случае известна генеральная совокупность. Ошибку выборки невозможно установить, если неизвестны значения переменной в выборочной и генеральной совокупностях.

Ошибки выборки подразделяются на два типа – случайные и систематические.

Случайная ошибка – это статистические погрешности, присущие самому выборочному методу. Они уменьшаются при возрастании объема выборочной совокупности.

Систематические ошибки – результат деятельности самого исследователя; вызваны неконтролируемыми перекосами в распределении выборочных наблюдений; предумышленным смещением выборки.

Например, если социолог решил узнать мнение всех жителей города о проводимой местными органами власти социальной политике, а опросил только тех, у кого есть телефон, то возникает предумышленное смещение выборки в пользу зажиточных слоев, т.е. систематическая ошибка .

Систематические ошибки возникают, когда:

1) выборка не соответствует задачам исследования (социолог решил изучить только работающих пенсионеров, а опросил всех подряд);

2) незнание характера генеральной совокупности (социолог думал, что 70% всех пенсионеров не работает, неработающих оказалось только 10%);

3) отбираются только «выигрышные» элементы генеральной совокупности (например, только обеспеченные пенсионеры). Для исследователя оценить последствия систематической ошибки – задача непростая.

Чтобы избежать ошибки репрезентативности :

1) каждая единица генеральной совокупности должна иметь равную вероятность попасть в выборку;

2) отбор желательно производить из однородных совокупностей;

3) надо знать характеристики генеральной совокупности;

4) при составлении выборочной совокупности надо учитывать случайные и систематические ошибки.

Если выборочная совокупность (или просто выборка) составлена правильно, то социолог получает надежные результаты, характеризующие всю генеральную совокупность. Если неправильно, то возникшая на этапе составления выборки ошибка возрастает на каждом следующем этапе проведения социологического исследования и достигает в конечном счете такой величины, которая обесценивает проведенное исследование.

Социометрический опрос существенно отличается от других видов социологического опроса по характеру исходных данных, способам их представления, процедуре опроса и методам анализа собранной информации. В данном виде опроса результатом измерения здесь является не характеристика респондента, а отношение между респондентами. Метод социометрии исследует межличностные отношения в малых группах. Социометрия, по определению Морено, является одной из трех составных частей социономии - науки о социальных законах и представляет собой науку об измерении межличностных отношений. В узком смысле под социометрическими методами понимаются методы исследования структуры межличностных отношений в малой группе путем изучения выборов, сделанных членами группы по тому или иному критерию.

Метод опроса изобретен не социологами, его активно используют медики, юристы, журналисты, педагоги и др. Он имеет в социологии давние традиции. Специфика опроса состоит прежде всего в том, что при его использовании источником первичной социологической информации является человек (респондент) – непосредственный участник исследуемых социальных явлений. Преимущества опроса заключаются: а) в максимально коротких сроках сбора информации; б) в возможности получения разнообразной информации; в) в возможности охвата больших совокупностей людей; г) в широте охвата различных областей социальной практики. А несовершенство - в возможности искажения информации в силу субъективного восприятия и оценки социального факта респондентами.

Чтобы полученная первичная социологическая информация начала активно служить, ее необходимо обработать, обобщить, проанализировать и научно проинтерпретировать. Только после этих процедур появится реальная возможность сформулировать выводы и практические рекомендации, которые и откроют социологической информации выход на практику.

Обработка информации осуществляется вручную или с помощью ЭВМ, ее результат – социологические данные, т.е. показатели ответов на вопросы в числовом и процентном выражении. Обобщение информации идет путем группировки ответивших на вопросы и через ряды распределений (в том числе с помощью таблиц). Анализ и интерпретация данных проводятся в рамках теоретической обработки полученной информации и впрямую зависят от профессионализма социологов, их гипотез, проверка которых и производится прежде всего.

Итоги работы выливаются в служебные документы: отчет, приложение к отчету и аналитическая справка, содержащая выводы и рекомендации.

Использование результатов социологического исследования зависит от актуальности изучаемой социальной проблемы, анализа достоверности собранной информации и заинтересованности в ней общества.

НАБЛЮДЕНИЕ–

где – среднее значение выборки, Z - значение стандартизованной нормально распределенной случайной величины, соответствующее интегральной вероятности, равной 1 – α/2 , σ - стандартное отклонение генеральной совокупности, n – объем выборки

Скачать заметку в формате или , примеры в формате

В этой формуле величина, добавляемая и вычитаемая из равна половине длины интервала. Она определяет меру неточности оценки, возникающей вследствие ошибки выборочного исследования, которая обозначается символом е и вычисляется по формуле

Решив уравнение (2) относительно n , получим:

На практике вычислить эти величины непросто. Как определить доверительный уровень и ошибку выборочного исследования? Обычно ответить на этот вопрос могут лишь эксперты в предметной области (т.е. люди, понимающие смысл оцениваемых величин). Как правило, доверительный уровень равен 95% (в этом случае Z = 1,96). Если требуется поднять доверительный уровень, обычно выбирают величину, равную 99%. Если можно ограничиться более низким доверительным уровнем, выбирают 90%. Определяя ошибку выборочного исследования, не стоит думать о ее величине (в принципе, любая ошибка нежелательна). Следует задать такую ошибку, чтобы полученные результаты допускали разумную интерпретацию.

Кроме доверительного уровня и ошибки выборочного исследования, необходимо знать стандартное отклонение генеральной совокупности. К сожалению, этот параметр почти никогда не известен. В некоторых случаях стандартное отклонение генеральной совокупности можно оценить на основе предшествующих исследований. В других ситуациях эксперт может учесть размах выборки и распределение случайной переменной. Например, если генеральная совокупность имеет нормальное распределение, ее размах приближенно равен 6σ (т.е. ±3σ в окрестности математического ожидания). Следовательно, стандартное отклонение приближенно равно одной шестой части диапазона. Если величину σ невозможно оценить таким способом, необходимо выполнить пилотный проект и вычислить стандартное отклонение по результатам.

Пример 1. Вернемся к задаче об аудиторской проверке. Предположим, что из информационной системы извлечена выборка, состоящая из 100 накладных, заполненных в течение последнего месяца. Компания желает построить интервал, содержащий математическое ожидание генеральной совокупности, доверительный уровень которого равен 95%. Как был определен объем выборки? Следует ли его уточнить?

Допустим, что после консультаций с экспертами, работающими в компании, статистики установили допустимую ошибку выборочного исследования равной ±5 долл., а доверительный уровень - 95%. Результаты предшествующих исследований свидетельствуют, что стандартное отклонение генеральной совокупности приближенно равно 25 долл. Таким образом, е = 5, σ = 25 и Z = 1,96 (что соответствует 95%-ному доверительному уровню). По формуле (3) получаем:

Следовательно, n = 96. Таким образом, объем выборки, равный 100, был выбран удачно и вполне соответствует требованиям, выдвинутым компанией.

Пример 2. Некая промышленная компания на Среднем Западе производит электрические изоляторы. Если во время работы изолятор выходит из строя, происходит короткое замыкание. Чтобы проверить прочность изолятора, компания проводит испытания, в ходе которых определяется максимальная сила, необходимая для разрушения изолятора. Сила измеряется в фунтах нагрузки, приводящей к разрушению изолятора (рис. 1, столбец А). Предположим, что нам необходимо оценить среднюю силу разрушения изолятора с точностью +25 фунтов при 95%-ном доверительном интервале для этой величины. Данные, полученные в предыдущем исследовании, свидетельствуют, что стандартное отклонение равно 100 фунтов. Определите требуемый объем выборки.

Решение. Итак, е = 25, σ =100, доверительный уровень 95% (т.е. Z = 1,96) (рис. 1).

Рис. 1. Определение объема выборки

Таким образом, n = 62 (дробные результаты, как правило, округляют с избытком до ближайшего целого).

Определение объема выборки для оценки доли признака в генеральной совокупности

Выше мы рассмотрели способ определения объема выборки для оценки математического ожидания генеральной совокупности. Предположим теперь, что нам необходимо определить долю накладных, не соответствующих правилам, принятым компанией (начальные условия см. пример 1 выше). Сколько накладных следует извлечь из информационной системы, чтобы построенный интервал имел заданный доверительный уровень? Для ответа на этот вопрос применим тот же подход, что и при определении объема выборки для оценки математического ожидания.

Ошибка выборочного исследования определяется по формуле (2). При оценке доли признака величину σ следует заменить на величину . Таким образом, формула для ошибки выборочного исследования принимает следующий вид:

Выражая n через остальные величины, получаем следующую формулу:

Таким образом, для определения объема выборки необходимо знать три параметра:

Требуемый доверительный уровень, по которому определяется величина Z .
Допустимую ошибку выборочного исследования е .
Истинную долю успехов р .

На практике вычислить эти величины нелегко. Если известен доверительный уровень, можно вычислить критическое значение стандартизованного нормального распределения Z . Ошибка выборочного исследования е определяет точность, с которой оценивается доля успехов в генеральной совокупности. Третий параметр - доля успехов в генеральной совокупности р - это именно тот параметр, который нам необходимо оценить. Итак, как оценить диапазон изменения величины р по его выборочным значениям?

Существуют два способа. Во-первых, во многих ситуациях для оценки величины р можно использовать результаты предыдущих исследований. Во-вторых, если данные о предыдущих исследованиях недоступны, можно попытаться оценить параметр р так, чтобы исключить недооценку объема выборки. Обратите внимание на то, что в формуле (5) величина р(1 – р) стоит в числителе. Следовательно, необходимо найти максимальное значение этой величины. Очевидно, что оно достигается при р = 0,5.

Таким образом, если доля признака в генеральной совокупности р заранее неизвестна, для определения объема выборки следует задать р = 0,5. В этом случае объем выборки будет переоценен, что приведет к дополнительным затратам на ее создание. Если истинная доля успехов в генеральной совокупности сильно отличается от 0,5, доверительный интервал окажется значительно уже, чем требовалось. Оценка параметра р в этом случае будет весьма точной, однако за это придется заплатить дополнительными временны ми и финансовыми ресурсами.

Вернемся к задаче об аудиторской проверке. Предположим, аудитор желает построить интервал, содержащий долю ошибочных накладных, доверительный уровень которого равен 95%. Допустимая точность равна ±0,07. Результаты предыдущих проверок свидетельствуют, что доля ошибочных накладных не превышает 0,15. Таким образом, е = 0,07, р = 0,15 и Z = 1,96 (что соответствует 95%-ному доверительному уровню). По формуле (5) получаем:

Таким образом, объем выборки, равный 100, был выбран совершенно правильно и вполне соответствует требованиям, выдвинутым компанией.

Определение объема выборки, извлекаемой из конечной генеральной совокупности

Для определения объема выборки, извлеченной из конечной генеральной совокупности без возвращения, необходимо использовать поправочный коэффициент. Например, при оценке математического ожидания выборочная ошибка вычисляется по следующей формуле:

При оценке доли признака ошибка выборочного исследования равна:

Чтобы вычислить объем выборки для оценки математического ожидания или доли признака, применяются формулы:

где n 0 - объем выборки без учета поправочного коэффициента для конечной генеральной совокупности. Применение поправочного коэффициента приводит к следующей формуле:

Используются материалы книги Левин и др. Статистика для менеджеров. – М.: Вильямс, 2004. – с. 471–476

Для определения размера выборки используется величина Z , а не t , поскольку для вычисления критического значения t размер выборки необходимо знать заранее. В большинстве случаев размеры выборки позволяют хорошо аппроксимировать t -распределение стандартизованным нормальным распределением.

Интервал c доверительным уровнем 95% делится на две равные части. Первая часть лежит слева от математического ожидания генеральной совокупности, а вторая - справа. Значение величины Z, соответствующей вероятности 2,5% (площади 0,025), равно –1,96, а значение величины Z, соответствующей суммарной площади 0,975, равно +1,96. Для расчета удобно воспользоваться функцией Excel Z =НОРМ.СТ.ОБР(р), где р – вероятность, подставляя значения р 1 = 2,5% и р 2 = 97,5%

Приведенная ниже формула для расчета объема выборки используется в тех случаях, когда опрашиваемым (респондентам) задается только один вопрос, на который существует только два варианта ответа. Например, «Да» и «Нет»; «Пользуюсь» и «Не пользуюсь». Конечно, данную формулу можно применять только при проведении простейших исследований. Если Вам нужно определить объем выборки при проведении более масштабных исследований, например анкетирования, то следует использовать другие формулы.

Простая формула для расчета объема выборки

где: n – объем выборки;

z – нормированное отклонение, определяемое исходя из выбранного уровня доверительности. Этот показатель характеризует возможность, вероятность попадания ответов в специальный - доверительный интервал. На практике уровень доверительности часто принимают за 95% или 99%. Тогда значения z будут соответственно 1,96 и 2,58;

p – вариация для выборки, в долях. По сути, p - это вероятность того, что респонденты выберут той или иной вариант ответа. Допустим, если мы считаем, что четверть опрашиваемых выберут ответ «Да», то p будет равно 25%, то есть p = 0,25;

q = (1 – p);

e – допустимая ошибка, в долях.

Пример расчета объема выборки

Компания планирует провести социологическое исследование с целью выявить долю курящих лиц в населении города. Для этого сотрудники компании будут задавать прохожим один вопрос: «Вы курите?». Возможных вариантов ответа, таким образом, только два: «Да» и «Нет».

Объем выборки в этом случае рассчитывается следующим образом. Уровень доверительности принимается за 95%, тогда нормированное отклонение z = 1,96 . Вариацию принимаем за 50%, то есть условно считаем, что половина респондентов может ответить на вопрос о том, курят ли они - «Да». Тогда p = 0,5 . Отсюда находим q = 1 – p = 1 – 0,5 = 0,5 . Допустимую ошибку выборки принимаем за 10%, то есть e = 0,1 .

Подставляем эти данные в формулу и считаем:

Получаем объем выборки n = 96 человек .

Область применения данной формулы

При проведении простых исследований, когда нужно получить ответ всего на один простой вопрос. При этом шкала ответов, как правило, дихотомического характера. То есть предлагаются (или подразумеваются) варианты ответов по типу «Да» - «Нет», «Черное» - «Белое», и т.д.

Особенности данной формулы расчета объема выборки

Галяутдинов Р.Р.

	Идентификация объектов генеральной совокупности

	Выбор метода обследования

Сплошное обследование			Выборочное обследование


		Выбор процедуры формирования выборки		Расчет объема выборки


	Реализация плана выборки

Рис. 4.3. Планирование выборки

Планирование выборки включает следующие процедуры (рис. 4.3):

Выделение объектов генеральной совокупности.

Определение метода обследования.

Определение процедуры формирования выборки.

Определение объема выборки.

Выделение объектов генеральной совокупности

Генеральная совокупность - это множество всех единиц, являющихся объектами исследования.

На этом этапе подготовки исследования необходимо определить, какие субъекты составляют исследуемую генеральную совокупность. Как правило, субъекты, входящие в генеральную совокупность, неоднородны, поэтому при определении типичных представителей объекта исследования некоторые группы могут быть упущены. Особенно сложно представить все элементы генеральной совокупности, состоящей из организаций, поскольку не все фирмы афишируют свою деятельность. В качестве генеральной совокупности могут быть определены рынок в целом, сегмент рынка или целевая группа субъектов.

Определение метода обследования

В зависимости от объема генеральной совокупности и целей исследования могут быть использованы методы сплошного или выборочного обследования.

Метод сплошного обследования заключается в изучении всех единиц генеральной совокупности. Метод связан с высокими затратами на проведение исследования, его использование оправдано, например, в случае малого количества потребителей, представляющих сегмент, или в случае, когда объем покупок данного клиента составляет значительную долю от емкости рынка в целом.

Выборка - это группа объектов исследования, которая является носителем характеристик всех единиц генеральной совокупности, например группа потребителей, представляющих интересы и вкусы всего целевого рынка.

Метод выборочного обследования обеспечивает меньшую точность по сравнению с методом сплошного обследования, однако он менее трудоемок. Целесообразно использование данного метода при наличии большого числа однородных единиц генеральной совокупности.

Метод выборочного обследования предоставляет информацию о генеральной совокупности на основании обследования только ее части, поэтому данные, полученные в ходе выборочного обследования, имеют вероятностный характер. На практике это означает, что в результате исследования определяется не конкретное значение, а интервал, в котором находится искомое значение. Вероятность, с которой можно утверждать, что ошибка выборки не превысит некоторую заданную величину, называется доверительной вероятностью.

Свойство выборки отражать характеристики генеральной совокупности называется репрезентативностью. Различие между характеристиками генеральной и выборочной совокупностей называется ошибкой выборки, которая зависит от выбранной процедуры составления (формирования) выборки.

Процедуры формирования выборки

Процедура составления выборки - это последовательность отбора респондентов в выборку.

Отбор респондентов может сопровождаться систематическими и случайными ошибками. Систематические ошибки возникают при неправильно выбранной процедуре составления выборки. Случайные ошибки существуют всегда, поскольку связаны с влиянием сложно-предсказуемых факторов. Влияние случайности полностью устранить невозможно, но величину случайной ошибки можно определить с помощью статистических методов. Систематическую ошибку невозможно оценить, но можно устранить, изменив процедуру выборки.

Учитывая наличие двух типов ошибок при формировании выборки, выделяют случайные (вероятностные) и неслучайные (детерминированные) виды процедур составления выборки.

Неслучайные процедуры формирования выборки

Неслучайные процедуры составления выборки самим процессом формирования предполагают неслучайный выбор респондентов, чье мнение может отличаться от мнения генеральной совокупности в целом, порождая тем самым наличие неслучайной (систематической) ошибки данных в результатах исследования. При использовании неслучайных процедур отбор респондентов в выборку производится на основе каких-либо принятых условий, ограничивающих круг вероятных участников исследования. Например, в выборку отбираются только те респонденты, которые владеют компьютером или зашли в магазин с 10 до 11 часов.

Возможны следующие виды неслучайных выборок:

Произвольная выборка - элементы выбираются без плана, бессистемно; способ недорог и удобен, но порождает неточность и нерепрезентативность;

типовая выборка - набор ограничен лишь характерными (типичными) элементами генеральной совокупности; используется, например, при формировании фокус-групп; требует, однако, наличия сведений о типичности изучаемых объектов;

квотированная выборка - структура выборки строится по аналогии с распределением определенных признаков в генеральной совокупности; от каждой группы генеральной совокупности отбираются участники исследования, количество которых пропорционально представительству группы в генеральной совокупности.

Случайные процедуры формирования выборки

При формировании случайной выборки применяют следующие процедуры.

простая выборка - элементы выбираются с помощью случайных чисел; при данном подходе предполагается, что для всех единиц генеральной совокупности вероятность быть избранной в выборочную совокупность одинакова (значение вероятности равняется отношению объема выборки к объему генеральной совокупности). Метод очень трудоемок и обязывает иметь список всех единиц генеральной совокупности;

систематическая (механическая) выборка - первый элемент выбирается с помощью случайных чисел, остальные элементы выборки отбираются через равные интервалы (интервал скачка), которые равны отношению объема генеральной совокупности к объему выборки. Данный порядок формирования выборки значительно упрощает процедуру, однако может внести искажения в структуру выборки, если генеральная совокупность упорядочена по какому-либо признаку.

Если генеральная совокупность упорядочена по существенному признаку (признак считается существенным, если он определяет состояние исследуемого показателя), то для уменьшения искажений выборочной характеристики следует отбирать единицы выборки из середины установленного интервала. Аналогично поступают и в том случае, когда генеральная совокупность упорядочена по второстепенному признаку, частично влияющему на изучаемый объект.

Если генеральная совокупность упорядочена по нейтральному признаку (который не оказывает влияния на поведение изучаемого объекта), то допустимо включение в выборку любой единицы генеральной совокупности из установленного интервала;

Стратифицированная (типическая или групповая) выборка - генеральная совокупность делится на группы с набором определенных признаков (сегменты или страты), в каждой из которой с помощью случайного отбора формируется своя выборка; весовой коэффициент каждой страты в общем объеме выборки соответствует ее удельному весу в генеральной совокупности; кластерная (серийная) выборка - генеральная совокупность делится на идентичные группы (гнезда, клумбы или кластеры). Кластеры должны быть по возможности однотипными, состав кластера должен быть подобен генеральной совокупности. Случайным образом из генеральной совокупности отбираются несколько групп, которые подвергаются сплошному обследованию (одноступенчатый подход). Возможен и двухступенчатый подход, когда первоначально формируется выборка из кластеров, из нее случайным образом отбираются единицы исследования (т. е. единица выборки предыдущей стадии становится генеральной совокупностью для последующей). Недостаток этой процедуры формирования выборки - кластеры могут быть неоднородны между собой, однако эта процедура проста и экономична.

Многоступенчатые выборки

Любой тип выборки может быть как одно-, так и многоступенчатым. Многоступенчатая выборка применяется в тех случаях, когда извлечь выборку из генеральной совокупности прямым путем затруднительно, при этом все единицы отбора на каждой ступени равноценны для обследования.

Многоступенчатый отбор, соединяющий различные процедуры формирования выборки, делает выборку комбинированной. Такой вариант формирования выборки позволяет добиться наиболее рациональных и экономичных условий сбора данных в соответствии с поставленными задачами.

Определение объема выборки

Определение размера выборки является некоторым компромиссом между теорией о точности результатов исследования и возможностью ее практической реализации по объему затрат на сбор информации.

Наиболее применимы следующие методы определения объема выборки:

1. Произвольный метод расчета; в этом случае объем выборки определяется на уровне 5-10 % от генеральной совокупности.

Традиционный метод расчета; связан с проведением периодических ежегодных исследований, охватывающих, например, 500, 1000 или 1500 респондентов.

Статистический метод расчета; основывается на определении статистической надежности информации.

Метод расчета с помощью номограмм.

Эмпирический метод; в этом случае выборка считается достаточной, когда все новые сведения вносят лишь незначительные изменения (которыми можно пренебречь) в уже собранные результаты исследования.

Затратный метод; основан на размере расходов, которые допустимо затратить на проведение исследования.

Статистический метод расчета объема выборки

На объем статистической выборки влияют следующие факторы:

Наличие сведений об объеме генеральной совокупности и степени ее однородности.

Требуемая точность результатов, регулируемая величиной максимально допустимой ошибки репрезентативности и величиной доверительной вероятности, с которой делается заключение о достоверности результатов исследования.

Наличие сведений о средних показателях генеральной совокупности по исследуемому признаку или об интервале варьирования признака(дисперсии).

Возможность повторного попадания единицы генеральной совокупности в выборку.

При определении объема выборки для больших совокупностей (когда объем выборки составляет менее 5% генеральной совокупности) могут использоваться следующие формулы:

а) повторная выборка (при возможности повторного попадания единицы генеральной совокупности в выборку) при неизвестном объеме генеральной совокупности, но известном распределении контролируемого признака:

где t - нормированное отклонение, которое определяется по выбранному уровню доверительной вероятности (при 95% доверительной вероятности t = 1,96; при 99% доверительной вероятности t = 2,58); р - найденная вариация генеральной совокупности, в % или в долях; q = 100 - р; Д - допустимая ошибка, в % или в долях;

б) повторная выборка при известной дисперсии изучаемого признака (о):

в) бесповторная выборка (при исключении возможности повторного попадания единицы генеральной совокупности в выборку) при известном объеме генеральной совокупности и известном распределении контролируемого признака:

где N - ;

г) бесповторная выборка при известной дисперсии изучаемого признака:

Выборка признается малой, если ее объем превышает 5% генеральной совокупности, в этом случае объем выборки может быть откорректирован:

где п" - объем выборки для малой совокупности, п - объем статистической выборки, N - объем генеральной совокупности.

Расчет статистической выборки при нормированном отклонении t = 2 и допустимой ошибке 5% (см. табл. 4.2) показывает, что для больших совокупностей объем выборки может быть определен любым способом, поскольку используемые практические приемы приводят скорее к завышению объема обследуемой совокупности.

Таблица 4.2 Зависимость размера выборки от величины генеральной совокупности*

Объем генеральной совокупности
Объем выборки

* при нормированном отклонении t = 2 и допустимой ошибке 5%.

Из табл. 4.2 видно, что при размере генеральной совокупности более 5000 ее величина не влияет на размер выборки, поэтому формула может принять следующий вид (величиной 1/ N можно пренебречь):

(4.6)

Например, из проведенных ранее исследований известно, что распределение ответов на интересующий исследователя вопрос (например о статусе пользователя) составило 60% и 40% (60% респондентов ответили утвердительно на вопрос о пользовании продуктом и 40% - отрицательно). Доля целевых респондентов в общем объеме респондентов составляет 70%. Для более детального анализа необходимо получить 100 положительных ответов. Чтобы получить этот результат, требуется опросить 238 человек:

Таким образом, при отсутствии точной информации о размере и характеристиках генеральной совокупности (при условии, что она не менее 5000) достаточно включить в выборку 400 ее представителей. Однако следует учесть, что если мы собираемся контролировать структуру выборки по нескольким параметрам, то объем выборки будет гораздо больше. Г. А. Черчилль в своей работе «Маркетинговые исследования» приводит на этот счет правило: «Объем выборки должен обеспечивать не менее 100 наблюдений для каждой первостепенной и не менее 20-50 наблюдений для каждой второстепенной классификационной составляющей»; также следует сделать поправку на то, что отдельные респонденты, включенные в выборку, могут оказаться вне досягаемости или отказаться участвовать в исследовании.1

Количество респондентов, которых необходимо опросить для получения необходимого количества положительных ответов на интересующий вопрос, можно рассчитать по формуле:

где П - требуемое для анализа количество положительных ответов; Pj - доля положительных ответов; Р 2 - доля целевых групп, рассчитываемая как произведение всех долей респондентов, удовлетворяющих установленным требованиям (возраст, пол, статус пользователя и т. д.).

Использование номограмм для расчета объема выборки

Стремление упростить процедуру расчета объема выборки приводит к созданию таблиц, шкал или программ, которые ориентированы на обеспечение статистической надежности информации, но при этом не обременяют пользовагеля знаниями специальных формул из области статистики. Например, существует калькулятор выборки (www. shortway. to/few/calculator, htm), на сайте Gallup (www. gallup. ru) можно найти таблицу, связывающую показатели размера выборки, распределения ответов с величиной стандартной ошибки (табл. 4.3).

Таблица 4.3 Взаимосвязь показателей размера выборки, распределения ответов и стандартной ошибки

Распределение ответов,			Размер выборки,
Распределение ответов,

Номограмма является графическим способом определения размера выборки. Номограмма включает три шкалы (рис. 4.4). На шкале слева устанавливается разметка показателя среднеквадратического отклонения или распределения доли признака. На правой шкале наносится разметка точности измерения в виде допустимой ошибки (половины интервала) при заданной доверительной вероятности 95 или 99%. На средней шкале делается разметка, соответствующая требуемому объему выборки. На правой и левой шкалах делаются отметки на уровне желаемых значений показателей (доли признака и допустимой ошибки). Линейкой эти две отметки соединяются, на пересечении линейки со средней шкалой делается отметка, соответствующая тому объему выборки, который отвечает пожеланиям исследователя.

Рис. 4.4. Номограмма для определения объема выборки (доверительная вероятность 95%)"

4.5. Определение объема выборки

Процедура составления плана выборки включает последовательное решение трех следующих задач:

Определение объекта исследования;

Определение структуры выборки;

Определение объема выборки.

Как правило, объект маркетингового исследования представляет собой совокупность объектов наблюдения, в качестве которых могут выступать потребители, сотрудники компании, посредники и т.д. Если эта совокупность настолько малочисленна, что исследовательская группа располагает необходимыми трудовыми, финансовыми и временными возможностями для установления контакта с каждым из ее элементов, то вполне реально проведение сплошного исследования всей совокупности. В этом случае, определив объект исследования, можно приступать к следующей процедуре (выбору метода сбора данных, орудия исследования и способа связи с аудиторией).

Однако на практике очень часто не представляется возможным или целесообразным проведение сплошного исследования всей совокупности. Для этого могут быть следующие причины:

Невозможность установления контакта с некоторыми элементами совокупности;

Неоправданно большие расходы на проведение сплошного исследования или наличие финансовых ограничений, не позволяющих проведение сплошного исследования;

Сжатые сроки, отведенные для исследования, обусловленные утратой со временем актуальности информации или другими причинами и не позволяющие осуществить сбор, систематизацию и анализ обширных данных для всей совокупности.

Поэтому большие и разбросанные совокупности часто изучаются с помощью выборки, под которой, как известно, понимается часть совокупности, призванная олицетворять совокупность в целом.

Точность, с которой выборка отражает совокупность в целом, зависит от структуры и размера выборки .

Различают два подхода к структуре выборки - вероятностный и детерминированный.

Вероятностный подход к структуре выборки предполагает, что любой элемент совокупности может быть выбран с определенной (не нулевой) вероятностью. Существуют различные виды выборок, основанных на теории вероятностей (типическая, гнездовая и др.). Наиболее простой и распространенной на практике является простая случайная выборка, при которой каждый элемент совокупности имеет равную вероятность выбора для исследования.

Вероятностная выборка более точна, позволяет исследователю оценить степень достоверности собранных им данных, хотя она сложней и дороже, чем детерминированная.

Детерминированный подход к структуре выборки предполагает, что выбор элементов совокупности производится методами, основанными либо на соображениях удобства, либо на решении исследователя, либо на контингентных группах.

на соображениях удобства , состоит в выборе любых элементов совокупности исходя из простоты установления контакта с ними. Несовершенство этого метода обусловлено, возможно, низкой репрезентативностью полученной выборки, т.к. удобные для исследователя элементы совокупности могут быть недостаточно характерными представителями совокупности в силу неслучайного и необоснованного их отбора.

Однако, с другой стороны, простота, экономичность и оперативность исследования, проводимого этим методом, снискали ему довольно широкое распространение на практике и, прежде всего при проведении предварительных исследований, направленных на уточнение основных проблем.

Метод формирования выборки, основанный на решении исследователя , состоит в выборе элементов совокупности, которые, по его мнению, являются ее характерными представителями. Этот метод является более совершенным, чем предыдущий, поскольку в его основе лежит ориентировка на характерных представителей исследуемой совокупности, хотя и подбираемых на основе субъективных представлений исследователей о ней.

Метод формирования выборки, основанный на контингентных нормах , состоит в выборе характерных элементов совокупности в соответствии с полученными ранее характеристиками совокупности в целом. Эти характеристики могут быть получены путем проведения предварительных исследований и в отличие от предыдущего метода не носят субъективного характера. Поэтому данный метод является более совершенным, он позволяет получить выборочные совокупности не менее представительные, чем вероятностные выборки при значительно меньших затратах на проведение обследования.

Выбрав структуру выборки (подход к ее формированию, вид вероятностной или метая формирования детерминированной выборки), исследователю предстоит определить объем, т.е. количество элементов выборочной совокупности.

Объем выборки определяет достоверность информации , полученной в результате ее исследования, а также необходимые для проведения исследования затраты. Объем выборки зависит от уровня однородности или разновидности изучаемых объектов.

Чем больше объем выборки, тем выше ее точность и больше затраты на проведения ее обследования. При вероятностном подходе к структуре выборки ее объем может быть определен с помощью известных статистических формул, на основе заданных требований к ее точности.

На практике используется несколько подходов к определению объема выборки:

1. Произвольный подход основан на применении «правила большого пальца». Например, бездоказательно принимается, что для получения точных результатов выборка должна составлять 5 % от совокупности. Данный подход является простым и легким в исполнении, однако не представляется возможным установить точность полученных результатов. При достаточно большой совокупности он к тому же может быть и весьма дорогим.

Объем выборки может быть установлен исходя из неких заранее оговоренных условий. К примеру, заказчик маркетингового исследования знает, что при изучении общественного мнения выборка обычно составляет 1000-1200 человек, поэтому он рекомендует исследователю придерживаться данной цифры. В случае, если на каком-то рынке проводятся ежегодные исследования, то в каждом году используется выборка одного и того же объема. В отличие от первого подхода здесь при определении объема выборки используется известная логика, которая, однако, является весьма уязвимой.

Например, при проведении определенных исследований может потребоваться точность меньше, чем при изучении общественного мнения, да и объем совокупности может быть во много раз меньше, нежели при изучении общественного мнения. Таким образом, данный подход не принимает в расчет текущие обстоятельства и может быть достаточно дорогим.

В ряде случаев в качестве главного аргумента при определении объема выборки используется стоимость проведения обследования. Так, в бюджете маркетинговых исследований предусматриваются затраты на проведение определенных обследований, которые нельзя превышать. Очевидно, что ценность получаемой информации не принимается в расчет. Однако в ряде случаев и малая выборка может дать достаточно точные результаты.

Представляется разумным учитывать затраты не абсолютным образом, а по отношению к полезности информации, полученной в результате проведенных обследований. Заказчик и исследователь должны рассмотреть различные объемы выборки и методы сбора данных, затраты, учесть другие факторы

2. Объем выборки от уровня доверительного интервала допустимой ошибки, каковая, как уже говорилось, задается целесообразной точностью итоговых обобщений: от повышенной до ориентировочной. Однако здесь имеются в виду так называемые случайные ошибки, связанные с природой любых статистических погрешностей. Именно они и вычисляются как ошибки репрезентативности вероятностных выборок.

В. И. Паниотто приводит следующие расчеты репрезентативной выборки с допущением 5-процентной ошибки (табл. 4.2).

Таблица 4.2

Расчетная таблица выборки

Для совокупности более 100000 выборка составляет 400 единиц. Если же иметь в виду генеральные совокупности численностью от 5 тыс. и больше, то, по расчетам того же автора, можно указать величины фактической ошибки выборки в зависимости от ее объема, что для нас весьма важно, памятуя, что величина допустимой ошибки зависит от цели исследования и необязательно должна приближаться к 5-процентному уровню.

Таблица 4.3

Расчетная таблица

Наряду со случайными возможны ошибки систематического характера. Они зависят от организации выборочного обследования. Это разнообразные смещения выборки в сторону одного из полюсов выборочного параметра.

3. Объем выборки на основе статистического анализа . Этот подход основан на определении минимального объема выборки исходя из определенных требований к надежности и достоверности получаемых результатов. Он также используется при анализе полученных результатов для отдельных подгрупп, формируемых в составе выборки по полу, возрасту, уровню образования и т.п. Требования к надежности и точности результатов для отдельных подгрупп диктуют определенные требования к объему выборки в целом.

Наиболее теоретически обоснованный и корректный подход к определению объема выборки основан на расчете достоверных интервалов. Понятие вариации характеризует величину несхожести (схожести) ответов респондентов на определенный вопрос. В более строгом плане вариацией значений какого-либо признака в совокупности называется различие его значений у разных единиц данной совокупности в один и тот же период или момент времени. Результаты ответов на вопросы опроса обычно представляются в форме кривой распределения (рис. 4.1). При высокой схожести ответов говорят о малой вариации (узкая кривая распределения) и при низкой схожести ответов – о высокой вариации (широкая кривая распределения).

В качестве меры вариации обычно принимается среднее квадратическое отклонение, которое характеризует среднее расстояние от средней оценки ответов каждого респондента на определенный вопрос.

Малая вариация

Высокая вариация

Рис. 4.1. Вариация и кривые распределения

Поскольку все маркетинговые решения принимаются в условиях неопределенности, то это обстоятельство целесообразно учесть при определении объема выборки. Так как определение исследуемых величин для совокупности в узком осуществляется на основе выборочной статистики, то следует установить диапазон (доверительный интервал), в который, как ожидается, попадут оценки для совокупности в целом, и ошибку их определения.

Доверительный интервал – это диапазон, крайним точкам которого соответствует определенный процент определенных ответов на какой-то вопрос. Доверительный интервал тесно связан со средним квадратическим отклонением изучаемого признака в генеральной совокупности: чем оно больше, тем шире должен быть доверительный интервал, чтобы включить в свой состав определенный процент ответов.

Доверительный интервал, равный или 95 %, или 99 %, является стандартным при проведении маркетинговых исследований. Ни одна фирма не проводит маркетинговых исследований, формируя несколько выборок. И математическая статистика дает возможность получить некую информацию о выборочном распределении, владея только данными о вариации единственной выборки.

Индикатором степени отличия оценки, истинной для совокупности в целом, от оценки, которая ожидается для типичной выборки, является средняя квадратическая ошибка. Причем, чем больше объем выборки, тем меньше ошибка. Высокое значение вариации обусловливает высокое значение ошибки и наоборот.

Когда на заданный вопрос существует только два варианта ответа, выраженные в процентах (используется процентная мера), объем выборки определяется по следующей формуле:

где n – объем выборки; z – нормированное отклонение, определяемое исходя из выбранного уровня доверительности; p – найденная вариация для выборки; g – (100-р); е – допустимая ошибка.

При определении показателя вариации для определенной совокупности прежде всего целесообразно провести предварительный качественный анализ исследуемой совокупности, в первую очередь установить схожесть единиц совокупности в демографическом, социальном и других отношениях, представляющих интерес для исследователя. Возможно проведение пилотного исследования, использование результатов подобных исследований, проведенных в прошлом. При использовании процентной меры изменчивости принимается в расчет то обстоятельство, что максимальная изменчивость достигается для р = 50 %, что является наихудшим случаем. К тому же этот показатель радикальным образом не влияет на объем выборки. Учитывается также мнение заказчика исследования об объеме выборки.

Возможно определение объема выборки на основе использования средних значений, а не процентных величин.

где s – среднее квадратическое отклонение.

На практике, если выборка формируется заново и схожие опросы не проводились, то s не известно. В этом случае целесообразно задавать погрешность е в долях от среднеквадратического отклонения. Расчетная формула преобразуется и приобретает следующий вид:

где .

Выше шел разговор о совокупностях очень больших размеров. Однако в ряде случаев совокупности не являются большими. Обычно, если выборка составляет менее пяти процентов от совокупности, то совокупность считается большой и расчеты проводятся по вышеприведенным правилам. Если объем выборки превышает 5 % от совокупности, то последняя считается малой и в вышеприведенные формулы вводится поправочный коэффициент.

Объем выборки в данном случае определяется следующим образом:

Определение объема вероятностной выборки

Объем вероятностной выборки определяется по специальным формулам, в зависимости от заданной достоверности , точности исследования и дисперсии генеральной совокупности.

Теоретической основой возможности использования выборочного обследования для оценки характеристик генеральной совокупности является центральная предельная теорема .

Центральная предельная теорема гласит: для простых случайных выборок объемом n , выделенных из генеральной совокупности с истинным средним μ и дисперсией σ2 , для больших n распределение выборочных средних приближается к нормальному с центром, равным истинному среднему, и дисперсией, равной отношению дисперсии генеральной совокупности к объему выборки, то есть:

Теорема верна для любого распределения частот в генеральной совокупности, однако чем ближе распределение в генеральной совокупности к нормальному, тем меньший объем выборки необходим для достижения эквивалентной достоверности и точности исследования.

На практике исследователь формирует только одну выборку из генеральной совокупности и ему необходимо знать, какой должен быть объем выборки для соблюдения заданных параметров достоверности и точности. Формула для определения объема выборки при оценке среднего может быть выведена, исходя из положений центральной предельной теоремы, и имеет вид:

n - необходимый объем выборки;

z - количество интервалов, характеризующих требование к достоверности исследования;

H - требуемая величина точности исследования;

σ2 - дисперсия генеральной совокупности.

Рассмотрим подробнее параметры правой части уравнения.

Достоверность характеризует вероятность того, что конкретная случайная выборка адекватно отражает характеристику генеральной совокупности.

Достоверность 99% означает, что в 99 выборках из 100 средняя генеральной совокупности будет входить в интервал средней, полученной в результате выборочного исследования.

Пример . Например, проведено три независимых выборочных исследования уровня доходов населения в конкретном регионе. Получены следующие данные о среднем уровне дохода: 300 10 грн., 310 10 грн., 305 10 грн., истинное среднее значение равно 302 грн.

Как видим, истинное среднее значение входит во все три интервала.

При достоверности 99% и заданной точности 10 грн. в 99 выборках из ста среднее выборки будет находиться в интервале от 292 до 312 грн. В одном случае из ста мы получим результат либо ниже 292 грн., либо больше 312 грн. Результаты такого исследования будут недостоверны, т.к. среднее генеральной совокупности не будет входить в коридор полученной в результате выборочного исследования средней величины.

В представленной формуле достоверность характеризуется величиной z, которая определяется по таблице z-распределения в зависимости от заданной достоверности в процентах.

Приведем соответствие только для некоторых типичных вероятностей: 68,26% (z=1), 95,45% (z=2), 99,73% (z=3).

z-распределение – Стандартное нормальное (Z) распределение

Значение z (z value) – количество стандартных ошибок, на которое точка удалена от среднего значения.

Вместо таблицы для вычисления вероятности попадания случайной величины в отмеченный (заштрихованный) диапазон

можно воспользоваться следующей формулой EXCEL:

2*НОРМСТРАСП(z)-1

подставив в нее требуемое значение z. Например:

Точность определяется исследователем, исходя из конкретной поставленной задачи.

Если исследуемая величина является абсолютной, то и точность должна быть представлена абсолютной, а не относительной величиной. При определении процентов (долей) точность определяется в процентах.

При определении точности исследователь должен учитывать возможное исследование динамики показателя.

Пример . Например, если при точности 10 грн. результаты исследования в прошлом году определили средний доход в 300 грн., а в текущем 305 грн., делать выводы об увеличении дохода некорректно, т.к. величина изменения входит в заданный интервал точности (менее 10 грн.).

Наиболее сложным при расчете объема выборки является определение дисперсии . При оценке среднего возникают два основных случая:

1) дисперсия генеральной совокупности известна на основании предыдущих исследований;

2) дисперсия генеральной совокупности неизвестна.

Возможность использования дисперсии, полученной в результате предыдущих исследований , основана на том, что этот параметр генеральной совокупности более инерционен, чем среднее. Другими словами, он изменяется медленнее и, следовательно, если вы, к примеру, ежегодно изучаете уровень дохода населения, то можете использовать величину дисперсии, полученную в прошлогодних исследованиях.

Пример расчета объема выборки .

Во-первых, на объем выборки влияет уровень доверительности α, по которому при помощи специальной таблицы определяется нормированное отклонение z. Например, для случая α = 99% по таблице найдем z = 2,58.

Во-вторых, оказывает влияние уровень (коэффициент) вариации . Примем, например, коэффициент вариации равным = 50%.

В-третьих, на объем выборки влияет требуемая точность (допустимая ошибка)

Если об уровне генеральной Вам ничего неизвестно , то для оценки уровня дисперсии возможно применение правила трех сигм . При нормальном распределении 99% параметров характеристики должно находиться в интервале плюс-минус три сигмы от истинной средней. Проводя исследование, Вы должны оценить типичный верхний (b ) и нижний (a ) уровни параметра , интервал между которыми и составляет шесть сигм. Величина сигмы составит разницу уровней параметра деленную на 6.

Дисперсия или вариация var:

где b, a – соответственно верхнее и нижнее значение параметра.

Сигма – это среднеквадратическое отклонение (стандартное отклонение):

Пример . Например, при исследовании уровня дохода нижнее значение параметра принимается на уровне 0 грн., а верхнее, предположим, на уровне 6000 грн. В этом случае значение среднеквадратичного (стандартного) отклонения составит: (6000-0)/6=1000.

Следует заметить, что если исследователь действительно готов к проведению исследования, то определение типичных нижней и верхней границы параметра не представляют особой сложности.

При работе с маркетинговыми шкалами принимаемая величина дисперсии зависит от количества точек шкалы и типа распределения частот.

Наихудшим в маркетинговых исследованиях (соответствующей максимальной дисперсии) считается равномерное распределение ответов между точками шкалы. Наилучшим – нормальное с максимальной частотой ответов в середине шкалы.

Таблица 5.1. Типовые диапазоны дисперсий в зависимости от количества точек шкалы

Нижние уровни диапазона соответствуют нормальному распределению частот, верхние – равномерному.

Рассмотренная выше формула определения объема выборки применяется при оценке средних величин .

Если исследователь работает с процентами или долями , то формула трансформируется в следующий вид:

где р - доля людей, положительно или отрицательно отвечающих на поставленный вопрос.

При работе с процентами в формулу вместо единицы подставляется 100.

Очевидно, что максимальное значение множителя (1-р)р имеет место при одинаковой доле положительных и отрицательных ответов и составляет при работе с долями 0,25, а при работе с процентами – 2500. Однако результат при работе с долями или процентами будет эквивалентен, так как численное значение квадрата точности, стоящее в знаменателе, также будет отличаться в 10000 раз.

За исключением случаев, когда применяется коэффициент окончательной коррекции совокупности. Возможно, это кажется невероятным, но если подумать, в этом утверждении есть смысл. Например, если исследуемые характеристики всех элементов совокупности идентичны, то выборки, состоящей из одного элемента, вполне достаточно, чтобы рассчитать среднее. Это также правильно, если совокупность состоит из 50, 500, 5000 или 50000 элементов.

В то же время изменчивость характеристик совокупности напрямую влияет на объем выборки. Эта изменчивость учитывается при вычислении объема выборки с помощью дисперсии совокупности σ2 или дисперсии выборки s2.

Пример (Н.Б.Сафронова, И.Е.Корнеева). Проведем расчет выборки для маркетингового исследования, посвященного узнаваемости потребителями торговой марки. Значение вероятности P = 0,954, предельно допустимая ошибка данного исследования не должна превышать 5%. Какое количество респондентов необходимо опросить для решения этой проблемы в порядке случайной повторной выборки притом, что данные о распределении признаков отсутствуют?

Решение . Так как доля признака неизвестна, допустим, что 50% потребителей знают торговую марку, а 50% – нет. Используем формулу расчета выборки с учетом доли признака:

= =400 чел.

Более сложные методы расчета объема выборки необходимы при использовании в процессе анализа двойной или тройной табуляции. Это связано с тем, что достоверность и точность, достигаемая при рассчитанном объеме выборки, для выборки в целом, не достигается для отдельных ее частей, на которые разбивается выборка в процессе табуляции.

Пример . Например, при определении среднего уровня дохода населения определенный объем выборки может быть достаточен, но он недостаточен для определения среднего уровня дохода мужчин и женщин (при заданных точности и достоверности). Это легко понять, потому что количество мужчин и женщин, принявших участие в опросе отдельно, меньше количества всех респондентов. Зная, однако, соотношение мужчин и женщин, легко определить, с какой точностью рассчитан уровень среднего дохода для каждой из рассматриваемых групп.

Определение объема выборки: среднее

Метод, использованный для создания доверительного интервала, можно модифицировать так, чтобы определить объем выборки с учетом желательного доверительного интервала. Предположим, что вы хотите рассчитать ежемесячный расход семьи на покупки в универмаге более точно, так, чтобы полученный результат находился в пределах ±5,00 долларов от истинного среднего значения исследуемой совокупности. Каким должен быть объем выборки? В табл. 12.2 приведен необходимый перечень действий, который вы должны выполнить.

1. Определите степень точности. Это максимально допустимое различие (D) между выборочным средним и генеральным средним. В нашем примере D = ±5,00 долларов.

2. Укажите уровень достоверности. Предположим, что желательный уровень достоверности 95%.

3. Определите значение г, связанное с данным уровнем достоверности, воспользовавшись табл. 2 в Приложении "Статистические таблицы". При 95%-ном уровне достоверности вероятность того, что среднее значение генеральной совокупности выйдет за пределы одностороннего интервала, равна 0,025 (0,05/2). Соответствующее значение г составляет 1,96.

4. Определите стандартное отклонение среднего генеральной совокупности. Его можно получить из вторичных источников или рассчитать, проведя пилотное исследование. Кроме того, стандартное отклонение можно установить на основе мнения исследователя. Например, диапазон нормально распределенной переменной примерно укладывается в шесть стандартных отклонений (по три слева и справа от среднего значения). Таким образом, можно рассчитать среднеквадратичное отклонение, разделив величину всего диапазона на 6. Исследователь часто может определить размеры диапазон, исходя из собственного понимания анализируемых явлений.

5. Определите объем выборки, воспользовавшись формулой стандартной ошибки среднего:

В нашем примере

(округленное в большую сторону до ближайшего целого числа).

неквадратичное отклонение выборки 5, равное 50,00. Тогда исправленный доверительный интервал составит

Обратите внимание, что полученный доверительный интервал уже предполагаемого. Это вызвано тем, что среднеквадратичное отклонение совокупности завышено на основании выборочных характеристик.

8. Иногда точность определена в относительных, а не абсолютных показателях. Другими словами, может быть известно, что результат вычисления должен составить плюс-минус R% от среднего. Это означает, что D = rm .

В этом случае объем выборки можно определить как

Объем генеральной совокупности N не влияет на объем выборки напрямую, за исключением случаев, когда применяется коэффициент окончательной коррекции совокупности. Возможно, это кажется невероятным, но если подумать, в этом утверждении есть смысл. Например, если исследуемые характеристики всех элементов совокупности идентичны, то выборки, состоящей из одного элемента, вполне достаточно, чтобы рассчитать среднее. Это также правильно, если совокупность состоит из 50,500,5000 или 50000 элементов. В то же время изменчивость характеристик совокупности напрямую влияет на объем выборки. Эта изменчивость учитывается при вычислении объема выборки с помощью дисперсии совокупности s2 или дисперсии выборки s2.

Расчет объема выборки

Из всех вопросов, которые задают сотрудникам знаменитого Института опросов общественного мнения Гэллапа, самым популярным является такой: как вы можете, проинтервьюировав 1000 человек, судить о том, что думают 250 млн американцев?

Для ответа на этот вопрос нужно упомянуть не только высокую квалификацию и огромный практический опыт сотрудников, но и использование ими статистики и математики. Если методы опроса не основаны на науке, результаты могут ввести вас в заблуждение.

В статистике приняты следующие разграничения объемов выборки. Объем выборки, достаточный для взаимопогашения случайностей и.получения статистических характеристик закономерного характера, равен 30. Выборка такого объема называется малой. Характер распределения значений признака в малых выборках приближается к нормальному с ростом числа испытаний. Минимальный объем выборки, позволяющий получить средние значения признака с указанием доверительных вероятностей, равен 5. Выборки такого объема называются сверхмалыми. Распределение значений признака в таких выборках характеризуется распределением Стьюдента. Но чаще всего в социологии имеют дело с гораздо большим объемом выборки.

При планировании выборочного обследования наступает момент, когда нужно решить, сколько человек опрашивать, т.е. каким должен быть объем выборки. Это решение чрезвычайно важно, поскольку слишком большая выборка потребует излишних затрат, а слишком маленькая понизит качество результатов.

Объем выборки - общее число единиц наблюдения, включенных в выборочную совокупность.

Поскольку выборочная совокупность - это часть генеральной совокупности, отобранная с помощью специальных методов, - важно, чтобы эта часть не искажала представления о целом, т.е. репрезентировала его. Социологов, часто проводящих эмпирические исследования, постоянно волнует вопрос о том, как много надо опрашивать человек, чтобы получить достоверную информацию? Институт Гэллапа в США проводит регулярные опросы по национальной выборке объемом в 1,5 тыс. человек и достигает поразительной точности (ошибка выборки составляет от 1 до 1,5%). Центр «Социо-Экспресс» Института социологии РАН проводит исследования на выборке объемом в 2 тыс. человек, при этом ошибка выборки не превышает 3% 31 .

Специалисты считают, что наилучшая выборка - не обязательно большая. Конечно, чем больше объем выборки, тем выше точность ее результатов. Однако даже огромная выборка не гарантирует успеха, если генеральная совокупность «плохо перемешана», т.е. является неоднородной. Однородной считается такая совокупность, в которой контролируемый признак распределен равномерно, не образует пустот или сгущений. В этом случае, опросив нескольких человек, можно получить точную информацию о распределении этого признака в генеральной совокупности.

Таким образом, на репрезентативность данных влияют не количественные характеристики выборочной совокупности (ее объем), а качественные характеристики генеральной совокупности - степень ее однородности.

В социологии еще не придумано единой и четкой формулы, используя которую можно рассчитать оптимальный объем выборочной совокупности, - такой формулы просто не существует в природе. И объясняется это весьма просто. Дело в том, что определение объема выборочной совокупности - проблема не столько статистическая, сколько содержательная. Иными словами, объем выборочной совокупности зависит от множества факторов, в том числе от целей и задач, теоретической модели, гипотез и методов исследования, степени однородности генеральной совокупности, наконец, требующейся точности получаемой информации.

Надо всегда помнить, что каждый процент прироста точности информации в исследовании приводит к резкому увеличению расходов на его проведение. Знаменитый институт Гэллапа, на протяжении многих десятилетий проводящий опросы в США, выявил, что при общенациональной выборке в 100 человек - ошибка выборки будет в пределах ±11%; 200 человек - ±8%; 400 - ±6%; 600 - ±5%; 750 -±4%; 1000 - ±4%; 1500 - ±3%; 4000 человек - ±2%. Именно поэтому он проводит общенациональные опросы в США на выборке в 1500- 2000 человек. Как видно, он предпочитает увеличение ошибки на 1% многократному увеличению стоимости исследования.

Практика показывает, что для многих социологов обоснование объема выборки является камнем преткновения, несмотря на значительное количество литературы, посвященной выборочным методам и, в частности, расчету объема выборки. Причин несколько: 1) дефицит специальной литературы на периферии; 2) нехватка времени для самообразования; 3) неумение пользоваться математическим аппаратом. В связи с этим возникает необходимость без сложных математических формул изложить стратегию и тактику обоснования объема выборки.

Процедура расчета объема выборки - цепь бесконечных компромиссов между стремлением к точности и ограниченностью ресурсов, дефицитом времени и неполнотой сведений об изучаемом явлении. Вместе с тем это наука и искусство, познание которых доступно каждому человеку. Однако для этого нужно знать стратегии расчета объема выборки (предварительного расчета, последовательной и комбинированной стратегии), а также факторы, влияющие на объем выборки (объем генеральной совокупности, варьирование ответов респондентов, точность оценивания, характер предполагаемого распределения ответов, метод исследования, процедура обработки).

Стратегия предварительного расчета состоит в том, что объем выборки определяется до проведения основного исследования. В наиболее простом случае можно воспользоваться уже наработанным опытом, например, института Гэллапа, где используется объем выборки приблизительно в 1500-2000 человек. Для среднестатистического отечественного исследования объема выборки - примерно 400-600 человек.

Для расчета объема случайной выборки надо знать желаемую точность оценивания, величину риска получаемого ответа и степень изменчивости ответа. Традиционно точность оценивания принимают за 5%, а величину риска - за 0,95. Иными словами, если по данным выборочного исследования 60% опрошенных удовлетворены работой, то можно утверждать, что в генеральной совокупности доля удовлетворенных составит от 55 до 65% в 95% случаев, а в 5% случаев такая доля может выйти за этот интервал. Если исходить из 5%-ной точности и величины риска в 0,95, объем выборки будет следующим (табл. 2.4).

Таблица 2.4 Зависимость объема выборки от объема генеральной совокупности

Результаты, приведенные в табл. 2.4, свидетельствуют против распространенного заблуждения, будто бы объем выборки - жестко фиксированный процент от генеральной совокупности, равный 10. На самом же деле эта величина - не постоянная, а переменная, изменяющаяся в конкретных условиях. Объем выборки зависит также от того, какие вопросы используются в анкете. Цифры в табл. 2.4 действительны только для одного случая - когда речь идет о дихотомическом вопросе, у которого максимальный разброс ответов - 50 на 50%. Не имея предварительной информации о разбросе оценок, социолог как бы заранее страхуется и считает, что этот разброс составит 50 на 50%. Если же такая информация имеется, то объем выборки будет следующим.

Таблица 2.5 Зависимость объема выборки от распределения дихотомического ответа

В табл. 2.5 показано распределение ответов на качественные вопросы. Расчет объема выборки для количественных вопросов, включающих вопросы типа «возраст» и «заработная плата», строится исходя из коэффициента вариации (табл. 2.6), который показывает, какой процент составляет среднее квадратическое отклонение от средней арифметической, и позволяет сравнивать между собой (по степени варьирования) любые признаки.

Таблица 2.6 Зависимость объема выборки от коэффициента вариации

Коэффициент вариации, %

Объем выборки

Если изучаются условия труда, взаимоотношения в коллективе, заработная плата и т.д. с помощью пятичленной шкалы, то коэффициент вариации изменяется здесь от 27 до 62%, а при использовании семичленной - от 78 до 113%. Стало быть, чем длиннее шкала, тем выше коэффициент вариации и больше должен быть объем выборки. Если социолог хочет обойтись небольшой выборкой, то и вопросы должен формулировать проще. Иногда думают, что чем длиннее шкала, тем точнее измерение. Но преимущества семибалльных шкал над пятибалльными не доказаны.

Среди социологов распространено мнение, согласно которому чем больше объем выборки, тем точнее результат, и это заставляет их непомерно увеличивать количество опрошенных. В реальности дело обстоит иначе: табл. 2.7, составленная по данным Института Гэллапа, показывает зависимость между объемом выборки и точностью оценивания в процентах. Из нее следует, что с увеличением объема выборки точность возрастает, но до определенного порога. Уже при 600 опрошенных достигается желанный для всех 5%-ный уровень точности. Стало быть, 600 человек - приемлемый объем выборки.

Между цифрами 400 и 600 человек противоречия нет. В первом случае объем выборки рассчитывался, исходя из положения о нормальном распределении ответов респондентов, а во втором - из практики. Расхождение между теорией и практикой обусловлено тем, что в реальной ситуации распределение оценок отличается от нормального, поэтому объем выборки надо рассчитывать с учетом именно этого обстоятельства; наиболее эффективным способом уменьшения объема выборки является снижение коэффициента вариации оценок.

Таблица 2.7 Зависимость между объемом выборки и точностью оценивания

При расчете объема выборки социологи часто совершают такую ошибку: рассчитав по существующим формулам необходимый объем выборки в целом для совокупности, в дальнейшем пропорционально размещают его по отдельным подразделениям выборки, например по цехам, предприятиям, районам, городам, типам семей. После чего на этапе обработки данных - анализируют уже сами различия между подразделениями. Однако правильнее вычислить объем выборки отдельно для каждого подразделения, а)атем суммировать отдельные объемы. Допустим, расчеты объема выборки по трем цехам (с учетом размерности шкалы, численности работающих, характера предполагаемого распределения оценок) позволили установить, что в первом цехе необходимо спросить 384 человека, во втором - 222, а в третьем - 600. Тогда общий объем выборки составит 384 + 222 + 600 = 1206 человек.

Если социологу необходимо опросить какую-либо категорию работников (допустим, водителей автобусов), о которой известно лишь, что к ней принадлежит, например, десятый работник предприятия, и он решил спросить 139 водителей автобусов, а общий объем выборки для предприятия составит 1390 человек, т.е. иными словами, отбирая случайным образом 1390 респондентов на предприятии, мы в соответствии с теорией выборки надеемся выявить 139 человек интересующей нас специальности.

При расчете квотной выборки социологи часто произвольно определяют ее объем в 1000 человек, исходя из удобства вычисления квот. Но с таким же успехом можно взять любое другое круглое число. Более обоснованным является подход, при котором объем квотной выборки рассчитывается как для случайной. Другим вариантом расчета объема квотной выборки является использование теории малых выборок. Ее суть: если не ставится цель дать дифференцированный анализ по группам работников, то умножают количество градаций вопросов, подлежащих изучению, на 25 (минимальный статистический значимый размер группы). Например, изучают три переменные: пол - две категории, возраст - две категории (до 30 лет и свыше 30 лет), удовлетворенность трудом - измеряется пятибалльной шкалой. Тогда необходимый объем выборки для данного примера составит 2x2x5x25 = 500 человек. Объем выборки увеличивается в 2,5 раза. Ясно, что с расширением числа переменных и числа градаций объем выборки может стать катастрофически большим. Выход только один: детальная проработка исходной проблемы, которая позволит отбраковать лишние вопросы в анкете, оставив самые важные. Если в исследовании проверяется несколько гипотез, то объем выборки для проверки каждой гипотезы вычисляется отдельно. Таким образом, при использовании выборки количество вопросов в анкете и гипотез должно быть минимальным.

Итак, мы рассчитали требуемый объем выборки. Теперь, и только теперь необходимо проверить, совместима ли полученная величина с выделенными ресурсами. Типичная ошибка многих социологов-прикладников состоит в том, что при расчете объема выборки во главу угла ставятся наличные ресурсы или, хуже того, социолог пассивно принимает все условия, диктуемые заказчиком. Это в корне неверно по нескольким причинам. Во-первых, расчет объема выборки позволяет глубже проникнуть в суть изучаемого предмета и специфику методов исследования, а значит, аргументированно требовать получения больших ресурсов или принять правильное решение о снижении объема выборки. Если администрация отказала в дополнительных ресурсах, а цели исследования не позволяют сократить объем выборки (т.е. социолог не может принять решение администрации), то надо переходить к другой схеме исследования. Во-вторых, обоснованный расчет объема выборки показывает профессионализм социолога и заставляет заказчика относится к нему более уважительно.

Стратегия последовательного расчета объема выборки. При расчете объема выборки желательно знать разброс оценок и некоторые другие параметры. Однако они-то, как правило, неизвестны. Для того чтобы не допустить ошибки, лучше предположить, что они максимальны. Плата за наше незнание - разбухание объема выборки сверх необходимого и дополнительные финансовые и временные затраты (приходится опрашивать большее число людей). Для сохранения затрат применяется последовательная стратегия - объем выборки не рассчитывается заранее, а ставится в зависимость от конечных результатов исследования. Например, опрашивают 100 человек, затем устанавливают величину разброса оценок и уже в зависимости от этого рассчитывают необходимый объем выборки. Если оказывается, что 100 человек достаточно, то исследование заканчивается. В противном случае добирается необходимое количество респондентов, но не до бесконечности. Известен пример из практики Дж. Гэллапа, который в начале своей карьеры активно экспериментировал с объемами выборки. В 1936 г. американцам был задан вопрос: «Хотели бы вы возобновления закона о восстановлении национальной промышленности?» Выяснился странный парадокс: Дж. Гэллап вначале опросил 500 человек и замерил ошибку выборки, а затем последовательно наращивал число респондентов до 30 тыс. К своему сожалению, он обнаружил, что прибавление 29,5 тыс. опрошенных увеличило точность информации менее чем на 1%. Следовательно, опрос можно было прекращать уже при 500 опрошенных. Этот пример показывает, что, применяя последовательную стратегию, можно добиваться значительного снижения необходимого числа наблюдений по сравнению с предварительным расчетом объема выборки.

Однако стратегия последовательного расчета объема выборки приносит желаемый результат лишь в том случае, если социолог может производить необходимые расчеты в ходе самого опроса, например телефонного, с применением компьютерных систем. Социолог вводит ответы респондента в свой персональный компьютер, с него результаты сразу поступают на компьютер руководителя исследования, обрабатываются, и на экране дисплея выдается информация не только об одномерных частотах, распределенных по тому или иному вопросу, но и о требуемом объеме выборки.

Если существует опасность, что объем выборки может оказаться катастрофически большим, надо совместить оба вида стратегии - предварительную и последовательную, т.е. применить комбинированную стратегию. Рассчитывая выборку по предварительной стратегии, получаем верхние допустимые значения для последовательной стратегии или, иначе говоря, ту величину объема выборки, при достижении которой прекращается опрос по последовательной стратегии.

Наиболее обоснованный и корректный подход к определению объема выборки основан на расчете доверительных интервалов, в основе которого лежит ряд базовых понятий математической статистики (вариация, среднее квадратическое отклонение, доверительный интервал, средняя квадратическая ошибка).

Для расчета необходимого размера выборки в количественном исследовании чаще всего используют два статистических понятия - доверительный интервал и доверительную вероятность. Доверительный интервал представляет собой заранее задаваемую вами погрешность выборки. Например, если вы задаете доверительный интервал в 3% и конкретный ответ на конкретный вопрос исследования составит 48%, это значит, что даже при проведении опроса всей генеральной совокупности реальное значение попадет в интервал между 45 (48 - 3) и 51% (48 + 3). Доверительная вероятность показывает, насколько вы можете быть уверены в полученных результатах, в том, что характеристики выборки соответствуют характеристикам всей генеральной совокупности - иными словами, с какой вероятностью случайный ответ попадет в доверительный интервал. Обычно используют доверительную вероятность 95 и 99%. Чаще всего используется 95% - этого вполне достаточно в подавляющем большинстве исследований. Если объединить доверительную вероятность и доверительный интервал, то можно сказать, что ответы на вопрос с 95%-ной вероятностью попадут в интервал между 45 и 51%.

Весьма полезна следующая приблизительная оценка надежности результатов выборочного обследования. Повышенная надежность допускает ошибку выборки до 3%, обыкновенная - от 3 до 10% (доверительный интервал распределений на уровне 0,03- 0,1), приближенная - от 10 до 20%, ориентировочная - от 20 до 40%, а прикидочная - более 40%.

На основе этих понятий с учетом ряда предположений выводятся формулы расчета объема выборки, которые предполагают, что репрезентативность гарантируется путем использования корректных вероятностных процедур формирования выборки.

В ряде случаев в качестве главного аргумента при определении объема выборки используется стоимость проведения обследования. Так, в бюджете маркетинговых исследований предусматриваются затраты на проведение определенных обследований, которые нельзя превышать, и очевидно, что ценность получаемой информации не принимается при этом в расчет. Однако в ряде случаев и малая выборка может дать достаточно точные результаты.

Исследовательская практика подсказывает следующее правило: объем выборки должен обеспечивать не менее 100 наблюдений для каждой первостепенной и не менее 20-50 наблюдений для каждой второстепенной классификационной составляющей. 11ервостепенные классификационные составляющие соответствуют наиболее критичным, а второстепенные - наименее критичным ячейкам перекрестной классификации, принятой в данном исследовании 34 . Теоретические расчеты и практика доказывают, что для получения достоверных данных о мнении и предпочтениях населения такого крупного города, как Санкт-Петербург, достаточно опросить 700-800 человек. Однако большинство опросов населения здесь проходят на выборках объемом до 1,5 тыс. человек.

Ошибка выборки

Как мы уже знаем, репрезентативность - свойство выборочной совокупности представлять характеристику генеральной. Если совпадения нет, говорят об ошибке репрезентативности - мере отклонения статистической структуры выборки от структуры соответствующей генеральной совокупности. Предположим, что средний ежемесячный семейный доход пенсионеров в генеральной совокупности составляет 2 тыс. руб., а в выборочной - 6 тыс. руб. Это означает, что социолог опрашивал только зажиточную часть пенсионеров, а в его исследование вкралась ошибка репрезентативности. Иными словами, ошибкой репрезентативности называется расхождение между двумя совокупностями - генеральной, на которую направлен теоретический интерес социолога и представление о свойствах которой он хочет получить в конечном итоге, и выборочной, на которую направлен практический интерес социолога, которая выступает одновременно как объект обследования и средство получения информации о генеральной совокупности.

Наряду с термином «ошибка репрезентативности» в отечественной литературе можно встретить другой - «ошибка выборки». Иногда они употребляются как синонимы, а иногда «ошибка выборки» используется вместо «ошибки репрезентативности» как количественно более точное понятие.

Ошибка выборки - отклонение средних характеристик выборочной совокупности от средних характеристик генеральной совокупности.

На практике ошибка выборки определяется путем сравнения известных характеристик генеральной совокупности с выборочными средними. В социологии при обследованиях взрослого населения чаще всего используют данные переписей населения, текущего статистического учета, результаты предшествующих опросов. В качестве контрольных параметров обычно применяются социально-демографические признаки. Сравнение средних генеральной и выборочной совокупностей, на основе этого определение ошибки выборки и ее уменьшение называется контролированием репрезентативности. Поскольку сравнение своих и чужих данных можно сделать по завершении исследования, такой способ контроля называется апостериорным, т.е. осуществляемым после опыта.

В опросах Института Дж. Гэллапа репрезентативность контролируется по имеющимся в национальных переписях данным о распределении населения по полу, возрасту, образованию, доходу, профессии, расовой принадлежности, месту проживания, величине населенного пункта. Всероссийский центр изучения общественного мнения (ВЦИОМ) использует для подобных целей такие показатели, как пол, возраст, образование, тип поселения, семейное положение, сфера занятости, должностной статус респондента, которые заимствуются в Государственном комитете по статистике РФ. В том и другом случае генеральная совокупность известна. Ошибку выборки невозможно установить, если неизвестны значения переменной в выборочной и генеральной совокупностях.

Специалисты ВЦИОМ обеспечивают при анализе данных тщательный ремонт выборки, чтобы минимизировать отклонения, возникшие на этапе полевых работ. Особенно сильные смещения наблюдаются по параметрам пола и возраста. Объясняется это тем, что женщины и люди с высшим образованием больше времени проводят дома и легче идут на контакт с интервьюером, т.е. являются легко достижимой группой по сравнению с мужчинами и людьми «необразованными».

Ошибка выборки обусловливается двумя факторами: методом формирования выборки и размером выборки.

Ошибки выборки подразделяются на два типа - случайные и систематические. Случайная ошибка - это вероятность того, что выборочная средняя выйдет (или не выйдет) за пределы заданного интервала. К случайным ошибкам относят статистические погрешности, присущие самому выборочному методу. Они уменьшаются при возрастании объема выборочной совокупности (табл. 2.8).

Таблица 2.8

Зависимость объема выборки от ее ошибки 36 (размер генеральной совокупности составляет 20 тыс. ед.)

Ошибка выборки, %

Объем выборки, ед.

Второй тип ошибок выборки - систематические ошибки. Если социолог решил узнать мнение всех жителей города о проводимой местными органами власти социальной политике, а опросил только тех, у кого есть телефон, то возникает предумышленное смещение выборки в пользу зажиточных слоев, т.е. систематическая ошибка.

Таким образом, систематические ошибки - результат деятельности самого исследователя. Они наиболее опасны, поскольку приводят к довольно значительным смещениям результатов исследования. Систематические ошибки считаются страшнее случайных еще и потому, что они не поддаются контролю и измерению.

Они возникают, когда, например: 1) выборка не соответствует задачам исследования (социолог решил изучить только работающих пенсионеров, а опросил всех подряд); 2) налицо незнание характера генеральной совокупности (социолог думал, что 70% всех пенсионеров не работает, а оказалось, что не работает только 10%); 3) отбираются только «выигрышные» элементы генеральной совокупности (например, только обеспеченные пенсионеры).

Внимание! В отличие от случайных ошибок систематические ошибки при возрастании объема выборки не уменьшаются.

Обобщив все случаи, когда происходят систематические ошибки, методисты составили их реестр. Они полагают, что источником неконтролируемых перекосов в распределении выборочных наблюдений могут быть следующие факторы:

♦ нарушены методические и методологические правила проведения социологического исследования;

♦ выбраны неадекватные способы формирования выборочной совокупности, методы сбора и расчета данных;

♦ произошла замена требуемых единиц наблюдения другими, более доступными;

♦ отмечен неполный охват выборочной совокупности (недополучение анкет, неполное их заполнение, труднодоступность единиц наблюдения).

Намеренные ошибки социолог допускает редко. Чаще ошибки возникают из-за того, что социологу плохо известна структура генеральной совокупности: распределение людей по возрасту, профессии, доходам и т.д.

Систематические ошибки легче предупредить (по сравнению со случайными), но их очень трудно устранить. Предупреждать систематические ошибки, точно предвидя их источники, лучше всего заранее - в самом начале исследования.

Вот некоторые способы избежать ошибок:

♦ каждая единица генеральной совокупности должна иметь равную вероятность попасть в выборку;

♦ отбор желательно производить из однородных совокупностей;

♦ надо знать характеристики генеральной совокупности;

♦ при составлении выборочной совокупности надо учитывать случайные и систематические ошибки.

Если выборочная совокупность (или просто выборка) составлена правильно, то социолог получает надежные результаты, характеризующие всю генеральную совокупность. Если она составлена неправильно, то ошибка, возникшая на этапе составления выборки, на каждом следующем этапе проведения социологического исследования приумножается и достигает в конечном счете такой величины, которая перевешивает ценность проведенного исследования. Говорят, что от такого исследования больше вреда, нежели пользы.

Подобные ошибки могут произойти только с выборочной совокупностью. Чтобы избежать или уменьшить вероятность ошибки, самый простой способ - увеличивать размеры выборки (и идеале до объема генеральной: когда обе совокупности совпадут, ошибка выборки вообще исчезнет). Экономически такой метод невозможен. Остается другой путь - совершенствовать математические методы составления выборки. Они-то и применяются на практике. Таков первый канал проникновения в социологию математики. Второй канал - математическая обработка данных.

Особенно важной проблема ошибок становится в маркетинговых исследованиях, где используются не очень большие выборки. Обычно они составляют несколько сотен, реже - тысячу респондентов. Здесь исходным пунктом расчета выборки выступает вопрос об определении размеров выборочной совокупности. Численность выборочной совокупности зависит от двух факторов: I) стоимости сбора информации и 2) стремления к определенной степени статистической достоверности результатов, которую надеется получить исследователь. Конечно, даже не искушенные в статистике и социологии люди интуитивно понимают, что чем больше размеры выборки, т.е. чем ближе они к размерам генеральной совокупности в целом, тем более надежны и достоверны помученные данные. Однако выше мы уже говорили о практической невозможности сплошных опросов в тех случаях, когда они проводятся на объектах, численность которых превышает десятки, сотни тысяч и даже миллионы. Понятно, что стоимость сбора информации (включающая оплату тиражирования инструментария, труда анкетеров, полевых менеджеров и операторов по компьютерному вводу) зависит от той суммы, которую готов выделить заказчик, и слабо зависит от исследователей. Что же касается второго фактора, то мы остановимся на нем чуть подробнее.

Итак, чем больше величина выборки, тем меньше возможная ошибка. Хотя необходимо отметить, что при желании увеличить точность вдвое вам придется увеличить выборку не в два, а в четыре раза. Например, чтобы сделать в два раза более точной оценку данных, полученных путем опроса 400 человек, вам потребуется опросить не 800, а 1600 человек. Впрочем, вряд ли маркетинговое исследование испытывает нужду в стопроцентной точности. Если пивовару необходимо узнать, какая часть потребителей пива предпочитает именно его марку, а не сорт его конкурента, - 60% или 40%, то на его планы никак не повлияет разница между 57%, 60 или 63%.

Ошибка выборки может зависеть не только от ее величины, но и от степени различий между отдельными единицами внутри генеральной совокупности, которую мы исследуем. Например, если нам нужно узнать, какое количество пива потребляется, то мы обнаружим, что внутри нашей генеральной совокупности нормы потребления у различных людей существенно различаются (гетерогенная генеральная совокупность). В другом случае мы будем изучать потребление хлеба и установим, что у разных людей оно различается гораздо менее существенно (гомогенная генеральная совокупность). Чем больше различия (или гетерогенность) внутри генеральной совокупности, тем больше величина возможной ошибки выборки. Указанная закономерность лишь подтверждает то, что нам подсказывает простой здравый смысл. Таким образом, как справедливо утверждает В. Ядов, «численность (объем) выборки зависит от уровня однородности или разнородности изучаемых объектов. Чем более они однородны, тем меньшая численность может обеспечить статистически достоверные выводы».

Определение объема выборки зависит также от уровня доверительного интервала допустимой статистической ошибки. Здесь имеются в виду так называемые случайные ошибки, которые связаны с природой любых статистических погрешностей. В.И. Паниотто приводит следующие расчеты репрезентативной выборки с допущением 5%-ной ошибки (табл. 2.9):

Таблица 2.9

Расчеты репрезентативной выборки

Это означает, что если вы, опросив, предположим, 400 человек в районном городе, где численность взрослого платежеспособного населения составляет 100 тыс. человек, выявили, что 33% опрошенных покупателей предпочитают продукцию местного мясокомбината, то с 95%-ной 39 вероятностью можете утверждать, что постоянными покупателями этой продукции являются 33±5% (т.е. от 28 до 38%) жителей этого города.

Можно также воспользоваться расчетами института Гэллапа для оценки соотношения размеров выборки и ошибки выборки (см. выше).

Сегодня многие трудные расчеты берет на себя техника, а статистические программы можно получить по Интернету. Вот и с расчетом выборки ленивому социологу предоставили такую возможность на веб-сайте Аналитического центра «Бизнес и маркетинг» (http://www.bma.ru/enter.htm), где пользователю надо лишь внести необходимые данные, а затем нажать на кнопку «Рассчитать».