Рандомная выборка что это
Случайная выборка из генеральной совокупности в EXCEL
history 14 ноября 2016 г.
Инструмент Пакета анализа MS EXCEL «Выборка» извлекает случайную выборку из входного диапазона, рассматривая его как генеральную совокупность. Также случайную выборку можно извлечь с помощью формул.
Пусть имеется некая совокупность данных, которая слишком велика для обработки или построения диаграммы. Для этих целей можно использовать репрезентативную выборку из данной совокупности.
Данную выборку можно получить с помощью инструмента «Выборка» надстройки Пакет анализа ( Analysis ToolPak ).
Случайная выборка
Разместим исходную генеральную совокупность в диапазоне A7:A32 (см. файл примера лист Пример ).
В поле Выходной интервал достаточно ввести ссылку на верхнюю ячейку диапазона с результатами (укажем ячейку С7 ). Нажмем ОК.
В принципе, количество случайных значений можно установить даже больше чем значений в исходной совокупности (безусловно, при этом будут повторы).
Аналогичную случайную выборку можно осуществить с помощью формулы =ИНДЕКС($A$7:$A$32;СЛУЧМЕЖДУ(1;СЧЁТ($A$7:$A$32)))
Функция СЛУЧМЕЖДУ() случайным образом выбирает позицию совокупности, из которой нужно взять 1 значение ( для этой функции вероятность выбрать любую строку одинакова ).
Выборка с определенной периодичностью
С помощью инструмента «Выборка» можно осуществить выборку с определенной заданной периодичностью. В этом случае пользователь должен сам убедиться, что данная выборка будет репрезентативной (как минимум, исходная совокупность не должна быть отсортирована ).
Этот же результат можно получить формулой (см. файл примера лист Пример ): =ИНДЕКС($A$7:$A$32;$H$6*(СТРОКА()-СТРОКА($G$6)))
Гораздо проще для этого использовать формулу (см. файл примера лист Квартал ): =ИНДЕКС($C$9:$C$32;4*(СТРОКА()-СТРОКА($F$8))-4+$F$6) или =СУММЕСЛИМН($C$9:$C$32;$A$9:$A$32;E9;$B$9:$B$32;$F$6&» кв.»)
Выборка из нормального распределения
Пусть имеется генеральная совокупность из 5000 значений случайной величины имеющей стандартное нормальное распределение (см. файл примера лист Выборка из НОРМ ).
Примечание : Случайные значения сгенерированы с помощью формулы =НОРМ.СТ.ОБР(СЛЧИС())
Построим гистограммы распределения для генеральной совокупности и выборки размером 200.
Это удобнее сделать с помощью формулы =ИНДЕКС($A$7:$A$5006; СЛУЧМЕЖДУ(1;СЧЁТ($A$12:$A$5006)))
Простая случайная выборка
Этот метод похож на розыгрыш лотереи, когда таблички с именами участников помещаются в барабан, который встряхивается, и из него произвольным образом извлекают отдельные таблички, в результате объективно определяются имена победителей.
При простой случайной выборке исследователь сначала формирует основу выборочного наблюдения, в которой каждому элементу присваивается уникальный идентификационный номер. Затем генерируются случайные числа, чтобы определить номера элементов, которые будут включены в выборку. Эти случайные числа могут генерироваться компьютерной программой или выбираться из таблицы.
Предположим, что выборочную совокупность, объем которой равен 10, нужно сформировать из основы выборочного наблюдения, содержащей 800 элементов. Поступают таким образом: выбирают по три правые цифры в каждом ряду, начиная с первой колонки и первого ряда табл. 1, и двигаются вниз, пока не будет отобрано 10 чисел из 800. Числа, которые находятся за пределами этого диапазона, не включаются. Выборочная совокупность создается из элементов, соответствующих случайно выбранным номерам. Так, в нашем примере будут выбраны элементы: 480, 368,130, 167, 570, 562, 301, 579,475 и 553. Обратите внимание, что последние три цифры ряда 6 (921) и ряда 11 (918) не включены в выборочную совокупность, поскольку они находятся за пределами установленного диапазона.
Простая случайная выборка имеет очевидные преимущества:
· Этот метод крайне прост для понимания.
· Результаты исследования можно распространять на изучаемую совокупность.
Однако метод простой случайной выборки имеет как минимум четыре существенных ограничения.
Во-первых, часто сложно создать основу выборочного наблюдения, которая позволила бы провести простую случайную выборку.
Во- вторых, результатом применения простой случайной выборки может стать большая совокупность, либо совокупность, распределенная по большой географической территории, что значительно увеличивает время и стоимость сбора данных.
В-третьих, результаты применения простой случайной выборки часто характеризуются низкой точностью и большей стандартной ошибкой, чем результаты применения других вероятностных методов.
В-четвертых, в результате применения SRS может сформироваться нерепрезентативная выборка. Хотя выборки, полученные простым случайным отбором, в среднем адекватно представляют генеральную совокупность, некоторые из них крайне некорректно представляют изучаемую совокупность. Вероятность этого особенно велика при небольшом объеме выборки. Простая случайная выборка не часто используется в маркетинговых исследованиях. Более популярен метод систематической выборки.
Случайная выборка из базы данных
Очень часто в работе программиста требуется вывести что-то случайное, чтобы это постоянно менялось от запуска к запуску. Например, вывести случайную статью, вывести случайную цитату, вывести случайные комментарии и многое другое. В этой статье мы с Вами разберём случайную выборку из базы данных.
В основе лежит команда сортировки (ORDER), и мы можем сделать так, чтобы сортировка была случайной. Это создаёт видимость случайной выборки. Вот пример запроса, который извлекает случайные записи:
SELECT * FROM `table` ORDER BY RAND()
Такой запрос вытащит все записи из таблицы и перемешает их случайным образом. На практике это нужно редко. Гораздо чаще нужно выводить именно определённое число записей:
SELECT * FROM `table` ORDER BY RAND() LIMIT 5
И данный запрос уже имеет практическую пользу, так как он позволяет вывести 5 случайных записей. Можно так вывести, например, 5 случайных изображений на страницу.
Очень часто требуется вытащить не просто случайные записи, но чтобы они удовлетворяли какому-либо условию:
SELECT * FROM `table` WHERE `id` > 5 ORDER BY RAND() LIMIT 5
Данный запрос вытащит 5 случайных записей, у которых id больше 5. Вот так делается случайная выборка из базы данных.
Копирование материалов разрешается только с указанием автора (Михаил Русаков) и индексируемой прямой ссылкой на сайт (http://myrusakov.ru)!
Добавляйтесь ко мне в друзья ВКонтакте: http://vk.com/myrusakov.
Если Вы хотите дать оценку мне и моей работе, то напишите её в моей группе: http://vk.com/rusakovmy.
Если Вы не хотите пропустить новые материалы на сайте,
то Вы можете подписаться на обновления: Подписаться на обновления
Если у Вас остались какие-либо вопросы, либо у Вас есть желание высказаться по поводу этой статьи, то Вы можете оставить свой комментарий внизу страницы.
Порекомендуйте эту статью друзьям:
Если Вам понравился сайт, то разместите ссылку на него (у себя на сайте, на форуме, в контакте):
Комментарии ( 15 ):
почему вы не используете pdo для работы с базой данных?
Не люблю иметь дела ни с какими сторонними расширениями.
Здравствуйте, Михаил я сделал все так-же но у меня не получается. ошибок нет я 5 раз проверял подскажите с чем это связано?
Если не получается, ошибок не может не быть. Может проблема не в самом запросе, а в таблице, с которой Вы пытаетесь работать.
вот вам Михаил мой сайт http://dfiles.ru/files/r35om683r исправьте код пожалуйста везде где ошибки еще мой e-mail: balandin_2004@mail.ru. таблицу проверил нет не в этом ошибка
Не получается составить запрос, который выберет из базы (таблицы) 5 СЛУЧАЙНЫХ записей, но обязательно НАЧИНАЯ С id5 или так, чтобы id5 обязательно попал в эту выборку! Спасибо.
Здравствуйте, Александр, попробуйте так: SELECT * FROM `table` WHERE `id` > 5 ORDER BY RAND() LIMIT 5
в поле id ставлю unsinsed, prymeri,auto_inscrement
ошибка найдена.echo было вне цикла
Для добавления комментариев надо войти в систему.
Если Вы ещё не зарегистрированы на сайте, то сначала зарегистрируйтесь.
Copyright © 2010-2021 Русаков Михаил Юрьевич. Все права защищены.
Алгоритмы формирования выборки социологического опроса
Журнальная версия опубликована:
Ильясов Ф.Н. Алгоритмы формирования выборки социологического опроса //
Социальные исследования. 2017. №2.
В статье уточняются термины, связанные с понятиями выборки и репрезентативности. Описывается классификация выборок, принятая в социологии. Предлагается и описывается классификация выборок по месту нахождения респондента и по методу контакта с ним.
1. Введение
Проблема выборки в социальных обследованиях имеет очень большое значение, тем не менее, эта тема остается не в полной мере разработанной и проясненной. Особенно это касается не-вероятностных, рандомных выборок (англ. random sample). Ред Бейкер с коллегами отмечают: «В отличие от вероятностной выборки, нет единого основания, которое позволило бы адекватно классифицировать и описать все виды не-вероятностных выборок. Не-вероятностные выборки представляет собой набор, коллекцию методов, и трудно, если не невозможно, описать особенности и алгоритмы, применяемые во всех видах не-вероятностных выборок» [Baker et al., 2013: 3].
Целью настоящей статьи является уточнение имеющихся классификаций и описаний алгоритмов отбора в социальных исследованиях.
2. Уточнение понятий
Генеральные совокупности, формируемые респондентами – это совокупности респондентов, находящихся по своей воле, и в силу сходной детерминации поведения, в определенных местах или осуществляющих определенные онлайн-контакты. Это могут быть:
Выборка, выборочная совокупность – часть генеральной совокупности, отобранная для первичных измерений. Первичные измерения в социологии это измерение свойств первичного объекта измерения – отдельных респондентов, через измерение свойств которых измеряются свойства изучаемой группы (выборки). Конечный объект измерения в отдельном социологическом исследовании – это специфическая группа, выборка или генеральная совокупность.
Репрезентативность выборки – это её свойства точно отражать исследуемые характеристики генеральной совокупности. Строго говоря, репрезентативность – это не единое, общее свойство всей выборочной совокупности, а это характер распределения ответов на тот или иной конкретный вопрос анкеты. То есть репрезентативным являются распределение ответов на определенный вопрос. Характер рассеяния разных свойств респондентов в генеральной совокупности может быть различным, оттого в одном опросе уровень репрезентативности ответов может быть различным по разным вопросам. Порой используют не совсем корректное выражение «репрезентативный опрос», на самом деле имея в виду репрезентативность выборки, либо репрезентативность результатов опроса, тогда как сам опрос – это процесс сбора эмпирической информации.
Иногда репрезентативной называют выборку, которая по социально-демографическим характеристикам опрошенных воспроизводит генеральную совокупность, при этом репрезентативность ответов на содержательные вопросы может оставаться неизвестной. Порой под репрезентативной понимают выборку, которая с точки зрения теории математической статистики, «должна быть» репрезентативной. Однако в данном случае речь идет только о гипотезе, которая, как правило, сохраняет статус непроверяемой.
Репрезентативность выборки может определяться только эмпирически:
Параметры выборки – определение объема выборки и того, какие параметры генеральной совокупности должна репрезентировать выборка. Это могут быть пол, возраст, доход, профессия, социальное положение, обладание определенными предметами, потребление определенных товаров и т.д.
Проектирование выборки – разработка алгоритма отбора и определение количества опрашиваемых респондентов.
Формирование выборки – реализация алгоритма отбора. Целью формирования выборки часто является создание репрезентативной выборки.
Ошибка выборки. Как отмечал Геннадий Батыгин: «Практически ошибка выборки определяется путем сравнения известных характеристик генеральной совокупности с выборочными средними. …В качестве контрольных параметров обычно применяются социально-демографические признаки» [Батыгин, 2008: 149]. Важно указать – показатель «статистическая погрешность», описываемый в терминах доверительного интервала и уровня доверия, является теоретическим понятием математической статистики и никак не характеризует реальную выборочную совокупность. О доверительном интервале и статистической погрешности подробнее см., например: [Антонов, 2013]. Также некорректными следует признать построения, основанные на идее нормального распределения, т.к. нет социологического свойства, относительного которого были бы получены достоверные эмпирические данные, подтверждающие нормальное распределение величин его свойств.
Удобная выборка (англ. convenience sampling) – это виды выборок, в которых отбор осуществляется в генеральных совокупностях, формируемых респондентами.
Размер, объем выборки – количество отбираемых респондентов. Как указывается в известном издании: «Выборочный метод не дает универсального решения относительно необходимого в каждом конкретном случае объема выборки, обязательного соотношения объемов генеральной и выборочной совокупностей» [Рабочая книга…, 1977: 266]. На практике размер выборки определяется эмпирически, исходя из результатов анализа ранее проведенных опросов. Следует указать, что, как известно, так называемый «расчет объема выборки по специальной формуле», основанный на показателе дисперсии величин некоторого свойства (признака), возможен только при известности дисперсии в генеральной совокупности, однако если дисперсия известна, опрос проводить не имеет смысла.
Квотное задание – сформулированное для конкретного интервьюера на основе параметров выборки, задание опросить конкретное число лиц с определенными свойствами, признаками. Это может быть, например, число женщин и число мужчин заданного возраста.
Тип отбора респондентов – при самом общем подходе можно выделить следующие типы отборов:
В первом случае отбор основан на строгом алгоритме с использованием основы выборки, таблицы или генератора случайных чисел. Во втором случае речь идет об использовании алгоритмов отбора, эмпирически показавших свою возможность обеспечивать репрезентативность выборки. В третьем и четвертом случаях строго алгоритма отбора нет, и вопрос репрезентативности может оставаться открытым.
В настоящем тексте используется термин «рандомная», чтобы не применять многозначное слово «случайная» и не совсем точное «вероятностная» (отбор основан на вероятности, однако производится случайным образом).
Шаг, ступень выборки – элемент алгоритма отбора.
3. Виды выборок
Выражение «виды выборки» используется в разных смыслах, например:
Соответственно, классификации выборок отражают многозначный характер этого понятия, описывая, как правило, один или два ключевых критерия, подхода, алгоритма.
В литературе выделяются, в частности, следующие виды выборок:
Более подробно о классификации видов выборок см., например: [Рабочая книга…, 1977: 258-297; Могильчак, 2015; Alvi, 2016].
Понятия «квотная, кластерная, районированная, стратифицированная» являются в определенной мере сходными и обозначают выделение некоторых непересекающихся групп, страт по отдельным основаниям, определяемым исследователем.
Иногда стратами называют разные подвыборки, формируемые в рамках одного исследования из двух или более сравниваемых генеральных совокупностей, к их числу относятся:
Сходными являются также понятия гнездовой и серийной выборки, они обозначают процесс выбора групп (семья, школьный класс, подразделение в организации), подлежащих сплошному опросу.
Не во всех случаях термин выборка обозначает алгоритм отбора респондентов. А в тех случаях, когда речь идет об алгоритмах отбора, указывается, как правило, лишь один или два алгоритма, в соответствии с которыми виду выборки дается наименование. По сути, указание вида выборки, обычно представляет собой лишь маркирование, обозначение некоторого концепта. Основная проблема в понимании вида выборки – это нередкое отсутствие описания полного алгоритма отбора. В виду указанного обстоятельства названия видов выборок в большей мере представляют собой метафоры, в которые исследователи вкладывает некоторое, порой не до конца раскрываемое содержание.
4. Рандомный, случайный отбор
С точки зрения теории статистики, случайный выбор – это выбор одного варианта из нескольких равновозможных. Рандомный, статистически случайный отбор – это алгоритм отбора респондентов, при котором каждая из единиц генеральной совокупности имеет равные шансы, одинаковую вероятность, попасть в выборку. При рандомном отборе есть возможность посчитать теоретическую вероятность попадания каждого респондента в выборку, потому она называется также вероятностной. Более подробно о рандомных (вероятностных, случайных) выборках см., например: [Чуриков, 2007].
Надо заметить, использование рандомного, вероятностного отбора не гарантирует репрезентативность выборки. Репрезентативность в данном случае – это просто предположение, вытекающее из теории математической статистики, некоторая априорная предпосылка, которая может реализоваться в конкретном отборе, а может и не реализоваться.
Рандомной может считаться, например, выборка, в которой основой выборки является полный список всех единиц генеральной совокупности. Это может быть список избирателей, список адресов, список работников организации и т.д. В соответствии с принятым объемом выборки, отбор может осуществляться через определенный интервал, шаг выборки. Рандомный отбор может быть осуществлен с помощью компьютерной программы, с использованием генератора случайных чисел. В программу вносятся два показателя – размер генеральной совокупности и размер выборки. Эта процедура реализуема и с использованием известных статистических пакетов.
В варианте с территориальной выборкой рандомность обеспечивается случайным выбором каждого элемента на каждом шаге выборки.
Из выборок, которые могут считаться рандомными, довольно распространенными становятся выборки с использованием таких основ выборки как списки стационарных и мобильных, домашних и корпоративных телефонов.
5. Эмпирические выборки
На практике алгоритм строго рандомного отбора реализовать сложно. Потому все чаще используются так называемые «эмпирические» выборки, под которыми понимаются различные совокупности алгоритмов рандомного и «стихийного», «произвольного» отбора, которые, как ожидается исследователем, обеспечивают репрезентативность. Эмпирическими они называются потому, что оптимальный алгоритм отбора в них определяется эмпирически, через апробацию тех или иных алгоритмов и нахождения наиболее точного, оптимального.
Эмпирические выборки также называют не-вероятностными, неслучайными. Однако они называются не-вероятностными, строго говоря, не потому, что не осуществляется рандомный отбор, а лишь потому, что вероятность попадания каждой единицы отбора в выборку неизвестна.
Иногда эмпирические выборки оценивают как не имеющие теоретического обоснования. Например, Ред Бейкер с коллегами отмечают: «Мы полагаем неприемлемыми для формулирования статистических выводов и предположений, используемые без теоретического обоснования методы сбора данных и сформулированные на их основе оценки» [Baker et al., 2013]. Однако теория лишь обобщает экспериментальные данные, а именно эмпирические данные являются основой позитивной науки. Критерием научности, как известно, является совпадение результатов повторяемых, воспроизводимых эмпирических процедур. Если проводится некая эмпирическая процедура, с хорошо прописанными алгоритмами действий, в итоге которой получается воспроизводимый и повторяемый результат, то этот результат может считаться научным. Например, феномен времени в физике не имеет признанного теоретического обоснования, однако это не делает неприемлемыми эмпирические данные и оценки, полученные на основе измерения времени (длительности).
Большинство выборок представляют собой некий алгоритм – последовательность определенных действий, шагов (ступеней), направленных на нахождение и отбор респондентов. Такие выборки называются многоступенчатыми. При этом нередко выборка представляет собой комбинацию различных видов отбора, такая выборка называется комбинированной. Значительная часть эмпирических выборок содержат в себе элементы рандомного и стихийного отбора.
Таким образом, в реальности эмпирическая выборка часто представляет собой алгоритм, состоящий из нескольких неоднородных, последовательных процедур отбора, имеющих рандомный, не строго рандомный и «стихийный» характер. Иными словами, на практике часто используется многоступенчатая, комбинированная выборка, использующая рандомные и стихийные принципы отбора.
Как представляется акцент на количестве ступеней и на комбинации методов отбора, как классифицирующих признаках, в некоторой степени заслоняет собой основную цель выборки – нахождение и отбор респондентов.
Каждая из эмпирических выборок представляет собой алгоритм отбора, состоящий из двух элементов:
Соответственно, можно выделить два основания для классификации видов выборок, алгоритмов отбора:
6. Эмпирические виды выборок по месту нахождения респондента
По основанию локации респондентов можно выделить следующие основные эмпирические виды выборок:
Объектом исследования в случае выборки по месту жительства могут являться генеральные совокупности – территориальные общности разного уровня: страна, область, город, район. Построение выборки начинается с локации нужного масштаба. Определяется размер и параметры выборки. Алгоритм формирования выборки по месту жительства респондента приведен на рис. 1. На первых пяти ступенях отбора, от региона до наименования улицы, отбор может производиться либо рандомным образом, либо отбираются типичные на взгляд исследователя локации, соответствующие целям изучения.
Для каждой из ступеней отбора могут формироваться свои квоты. Они могут быть пропорциональными – отражать социально-демографические и иные пропорции генеральной совокупности, т.е. воспроизводить структуру генеральной совокупности.
Квоты могут быть «аналитическими», т.е. соответствовать аналитическому плану исследования. Они создаются таким образом, чтобы минимальная, запланированная для анализа группа, была не менее 30-40 респондентов. Например, это может быть группа: женщины, возраст 40-45 лет, доход средний, с определенным видом поведения. Различные случаи выделения квот, страт, см., например: [Могильчак, 2015: 39-53].
Рис. 1. Алгоритм формирования выборки по месту жительства респондентов
Простая случайная выборка
Что такое Простая случайная выборка?
Простая случайная выборка – это подмножество статистической совокупности, в которой каждый член подмножества имеет равную вероятность быть выбранным. Простая случайная выборка предназначена для беспристрастного представления группы.
Примером простой случайной выборки могут быть имена 25 сотрудников, выбранных на пустом месте из компании с 250 сотрудниками. В этом случае совокупность состоит из 250 сотрудников, и выборка является случайной, потому что у каждого сотрудника есть равные шансы быть выбранным. Случайная выборка используется в науке для проведения рандомизированных контрольных тестов или слепых экспериментов.
Краткая справка
Нет более простого метода извлечения исследовательской выборки из более широкой совокупности, чем простая случайная выборка. Полностью случайный выбор субъектов из большей совокупности также дает выборку, которая является репрезентативной для изучаемой группы.
Понимание простой случайной выборки
Исследователи могут создать простую случайную выборку, используя несколько методов. При использовании метода лотереи каждому члену населения присваивается номер, после чего номера выбираются случайным образом.
Пример, в котором имена 25 сотрудников из 250 выбраны совершенно неожиданно, является примером действующего метода лотереи. Каждому из 250 сотрудников будет присвоен номер от 1 до 250, после чего 25 из этих номеров будут выбраны случайным образом.
Поскольку люди, составляющие подмножество большей группы, выбираются случайным образом, каждый человек в большой группе населения имеет одинаковую вероятность быть выбранным. В большинстве случаев это создает сбалансированное подмножество, несущее наибольший потенциал для представления большей группы в целом, без каких-либо предубеждений.
Для больших групп населения ручной метод лотереи может быть довольно обременительным. Для выбора случайной выборки из большой совокупности обычно требуется компьютерный процесс, в котором используется та же методология, что и в методе лотереи, только присвоение номеров и последующий выбор выполняется компьютерами, а не людьми.
Место для ошибок
В простой случайной выборке должно быть место для ошибки, представленной плюсовой и минусовой дисперсией ( ошибка выборки ). Например, если в средней школе из 1000 учеников нужно было провести опрос, чтобы определить, сколько учеников левши, случайная выборка может определить, что восемь из 100 отобранных – левши. Можно сделать вывод, что 8% учащихся средней школы – левши, тогда как на самом деле средний мировой показатель был бы ближе к 10%.
То же самое верно независимо от предмета. Обследование процентной доли студентов с зелеными глазами или физически недееспособных привело бы к математической вероятности, основанной на простом случайном опросе, но всегда с плюсовой или минусовой дисперсией. Единственный способ добиться 100% точности – это опрос всех 1000 студентов, что, хотя и возможно, было бы непрактично.
Ключевые моменты
Сравнение простой случайной и стратифицированной случайной выборки
В отличие от простых случайных выборок, стратифицированные случайные выборки используются с популяциями, которые можно легко разбить на различные подгруппы или подмножества. Эти группы основаны на определенных критериях, затем элементы из каждой случайным образом выбираются пропорционально размеру группы по сравнению с населением.
Преимущества простых случайных выборок
Простая случайная выборка предназначена для беспристрастного представления группы. Это считается справедливым способом выбора выборки из более широкой совокупности, поскольку каждый член совокупности имеет равные шансы быть выбранным.
Краткая справка
Хотя простая случайная выборка призвана быть объективным подходом к обследованию, может возникнуть систематическая ошибка отбора выборки. Когда набор выборки большей совокупности недостаточно инклюзивен, представление всей совокупности искажается и требует дополнительных методов выборки.
Недостатки простых случайных выборок
Ошибка выборки может произойти с простой случайной выборкой, если в конечном итоге выборка не точно отражает совокупность, которую она должна представлять. Например, в нашей простой случайной выборке из 25 сотрудников можно было бы выбрать 25 мужчин, даже если бы население состояло из 125 женщин и 125 мужчин.