Главная База знаний "Allbest" Социология и обществознание Множественное заполнение пропусков как метод борьбы с пропущенными данными

Множественное заполнение пропусков как метод борьбы с пропущенными данными

Проблема пропусков в социологических данных. Методика статистического эксперимента для сравнения подходов к агрегированию результатов множественного заполнения пропусков. Характеристика сравнительного анализа подходов к агрегированию результатов.

Рубрика	Социология и обществознание
Вид	дипломная работа
Язык	русский
Дата добавления	31.10.2016
Размер файла	361,9 K

посмотреть текст работы

скачать работу можно здесь

полная информация о работе

весь список подобных работ

Отправить свою хорошую работу в базу знаний просто. Используйте форму, расположенную ниже

Студенты, аспиранты, молодые ученые, использующие базу знаний в своей учебе и работе, будут вам очень благодарны.

Страница:

В соответствии с одной из основных предпосылок статистики - о том, что с увеличением объема выборки выборочные значения будут приближаться к реальным - кажется рациональным предположение о том, что с увеличением количества псевдовыборок оценки параметров будут приближаться к реальным. Тем не менее, извлечение сотен тысяч псевдовыборок даже на современных компьютерах занимает значительное время, поэтому для данного исследования мы ограничимся тремя наборами - 1000, 10 000 и 50 000 выборок - поскольку такое количество выборок считается достаточным и используется в большинстве публикаций, в которых описываются результаты, полученные с применением процедуры бутстреп.

Теперь обратимся к подробному описанию реализации каждого этапа эксперимента.

Отбор переменных для сравнительного анализа эффективности подходов к агрегированию результатов множественного заполнения пропусков

Переменные, которые использовались нами для демонстрации рассматриваемых методов анализа данных:

1. Описательная статистика: по одной переменной, измеряемой в номинальной, порядковой и интервальной шкале.

2. Поиск связи между признаками:

· две номинальные переменные, между которыми существует немонотонная статистическая связь, и две номинальные переменные, между которыми немонотонной связи нет;

· две порядковые переменные, между которыми существует монотонная статистическая связь, и две порядковые переменные, между которыми монотонная связь отсутствует;

· две интервальные переменные, между которыми существует линейная статистическая связь, и две интервальные переменные, между которыми линейная связь отсутствует.

3. Для построения модели множественной линейной регрессии: одна интервальная переменная на роль зависимой, две интервальные переменные на роль предикторов с незначимыми регрессионными коэффициентами и две интервальные переменные на роль предикторов со значимыми регрессионными коэффициентами.

Таким образом, в сумме необходимо отобрать по три или четыре переменных, измеренных в порядковой и номинальной шкале, а также от пяти до девяти интервальных переменных, в зависимости от возможности многократного использования одной и той же переменной для разных исследовательских ситуаций. В итоге нами были отобраны 13 переменных:

Таблица 1. Переменные, отобранные для эксперимента

№	Переменная	Смысл переменной	Шкала	Вид анализа
1	gndr	Пол респондента	номинальная	Поиск связи (наличие, отсутствие)
2	domicil	Тип населенного пункта	номинальная	Описательная статистика, поиск связи (отсутствие)
3	emplrel	Трудовые отношения, в которых состоит респондент	номинальная	Поиск связи (наличие)
4	polintr	Заинтересованность в политике	порядковая	Описательная статистика, поиск связи (наличие)
5	tvpol	Время просмотра новостей по телевизору в рабочий день	порядковая	Поиск связи (наличие)
6	prtdgcl	Степень близости к определенной партии	порядковая	Поиск связи (отсутствие)
7	health	Субъективная общая оценка здоровья	порядковая	Поиск связи (отсутствие)
8	lrscale	Положение на шкале «левое крыло - правое крыло»	интервальная	Поиск связи (отсутствие)
9	eduyrs	Количество лет полученного очного образования	интервальная	Описательная статистика, поиск связи (отсутствие), регрессия (незначимый предиктор)
10	plinsoc	Положение в обществе	интервальная	Поиск связи (наличие), регрессия (зависимая переменная)
11	happy	Субъективная оценка уровня счастья	интервальная	Поиск связи (наличие), регрессия (значимый предиктор)
12	stfedu	Уровень удовлетворенности системой образования	интервальная	Регрессия (незначимый предиктор)
13	agea	Возраст респондента	интервальная	Регрессия (значимый предиктор)

Необходимо заметить, что значимые и незначимые предикторы для множественной линейной регрессии мы отобрали двух типов: один значимый и один незначимый предиктор измерены в истинной интервальной шкале («длительность очного образования» и «возраст респондента»), а еще один значимый и один незначимый («уровень счастья» и «удовлетворенность системой образования») - в 11-балльной шкале, которую, тем не менее, рассматривают как интервальную в исследовательской практике в большинстве случаев, поскольку, учитывая такое большое количество градаций, респондент едва ли способен дифференцировать расстояния между градациями 1 и 2 или 7 и 8, а именно равенство и порядок не только для объектов, но и для расстояний между ними является основным признаком интервальной шкалы. Тем не менее, подобный отбор в случае обнаружения отличий может позволить сделать определенные выводы относительно более эффективного метода агрегирования результатов заполнения пропусков и наметить дальнейшие направления для исследований в этой области.

Формирование эталонного массива

В качестве основы для статистического эксперимента мы использовали массив респондентов из России, принявших участие в шестой волне Европейского социального исследования, проведенного в 2012 году. Кроме того, для получения эталонного массива нами отобраны только полные наблюдения, то есть те, которые не имеют ни одного пропуска в отобранных нами на предыдущем шаге переменных. Из промежуточного массива, содержащего 2484 наблюдения, были удалены все наблюдения, содержащие хотя бы один пропуск, при помощи команды вида:

Select if (not missing(Var₁) … and not missing(Var₁₃)

Execute.,

где Var1 … Var13 - оставленные в массиве переменные.

В результате были отобраны 613 полных наблюдений. Отсеиванию подверглось более 75% наблюдений, поэтому содержательный смысл результатов анализа не следует считать надежным, однако для экспериментальных целей данного исследования подобная ситуация ущерба не несет.

Фиксация эталонных результатов анализа данных

На полученном в предыдущем шаге эталонном массиве без пропусков реализуются все запланированные нами виды анализа и с использованием процедуры бутстреп фиксируются следующие параметры:

· для описательной статистики: выборочные доли, стандартные ошибки и доверительные интервалы для долей людей, проживающих в населенных пунктах разного типа (номинальная переменная), долей людей с разной степенью заинтересованности в политике (порядковая переменная) и среднего арифметического и дисперсии среднего количества лет очного образования (интервальная переменная);

· для поиска связи между двумя признаками: выборочное значение, значимость, стандартная ошибка и доверительный интервал для а) коэффициента V Крамера Здесь для поиска немонотонной связи мы используем коэффициент, основанный на хи-квадрате, а не сам хи-квадрат, поскольку расчет доверительного интервала для коэффициента хи-квадрат с помощью процедуры бутстреп в SPSS не производится. Коэффициент V Крамера был предпочтен коэффициенту Фишера, поскольку тестируемые таблицы сопряженности отличались от таблицы 2 на 2. в случаях наличия (переменные «пол» и «трудовые отношения») и отсутствия (переменные «пол» и «тип населенного пункта проживания») немонотонной связи; б) для коэффициента ранговой корреляции Спирмена в случаях наличия (переменные «заинтересованность в политике» и «длительность просмотра новостей по телевизору в будний день») и отсутствия (переменные «близость к партии» и «субъективная оценка здоровья») монотонной связи, и в) для коэффициента корреляции Пирсона в случаях наличия (переменные «уровень счастья» и «положение в обществе») и отсутствия (переменные «положение на шкале левое-правое крыло» и «количество лет очного образования») линейной связи;

· для множественной линейной регрессии: выборочные значения, значимость, стандартные ошибки и доверительные интервалы для константы (переменная «положение в обществе») и значимых (при переменных «уровень счастья», «возраст») и незначимых (при переменных «количество лет очного образования», «удовлетворенность системой образования») регрессионных коэффициентов.

Результаты вычисления эталонных параметров приведены в Приложении 1.

Внесение в массив искусственных пропусков

Для охвата большего количества возможных исследовательских ситуаций было принято решение создать три экспериментальных массива: с 10%, 30% и 50% пропусков. Выбор таких долей был обусловлен следующими рассуждениями: 10% пропусков - это та доля, которой, с одной стороны, зачастую легче пренебречь, а с другой - достаточно существенная потеря информации; 50% пропусков - это тот максимум, после которого странным представляется восстановление бульшей части отсутствующей информации за счет меньшей; 30% пропусков представляют середину между условной минимальной (10%) и максимальной (50%) долей пропусков.

В силу ограниченности временных ресурсов в данном эксперименте не моделируется случай частично случайных пропусков.

Полностью случайные пропуски вносились в эталонный массив следующим образом:

1. Эталонный массив был перенесен в приложение Excel и каждому наблюдению был присвоен идентификационный номер.

2. При помощи команды СЛЧИС к базе была добавлена новая переменная, присваивающая каждому наблюдению случайное число от 1 до 613. Наблюдения были отсортированы по новой переменной, после чего из столбца, содержащего значения первой экспериментальной переменной были удалены первые 10% значений (расчет количества наблюдений, которые необходимо удалить для создания необходимой доли пропусков, см. в таблице 12). Далее была создана еще одна переменная, случайным образом присваивающая наблюдениям числа от 1 до 613, наблюдения снова сортировались по этой переменной, и из второй экспериментальной переменной удалялись первые 10% значений. Этот шаг был повторен 13 раз (по числу экспериментальных переменных). Создание случайной нумерации для внесения пропусков в каждую экспериментальную переменную необходимо для того, чтобы пропуски содержались не в одних и тех же наблюдениях, поскольку в этом случае наблюдения, оказавшиеся в начале списка обратились бы в полные неответы, к которым неприменим метод множественного заполнения пропусков.

3. Полученный экспериментальный массив с 10% искусственных пропусков был отсортирован по идентификационному номеру респондента и перенесен обратно в SPSS. Вся процедура повторялась еще два раза для создания массивов с 30% и 50% искусственных пропусков.

Таблица 2. Расчет количества подлежащих удалению из эталонного массива значений каждой переменной для создания экспериментальных массивов с 10%, 30% и 50% искусственных пропусков

Массив	Исходное количество значений	Количество значений каждой переменной, подлежащих удалению
С 10% пропусков	613	61
С 30% пропусков	613	184
С 50% пропусков	613	306

Таким образом, внесенные нами в каждый массив пропуски являются полностью случайными. Поскольку в полученных массивах на каждую переменную приходится как минимум одна переменная, с которой у первой наблюдается статистическая связь (ввиду характера тестируемых методов анализа данных) внесение дополнительных переменных, позволяющих более точно рассчитать подставляемые на следующем шаге значения не является обязательным - они уже присутствуют в массиве.

По итогам данного этапа нами были поучены три массива данных с 10, 30 и 50% полностью случайных пропусков.

Заполнение пропусков в экспериментальных массивах

Искусственные пропуски в созданных на предыдущем шаге экспериментальных массивах заполняются при помощи алгоритма множественного заполнения пропусков с созданием пяти заполненных массивов на каждый экспериментальный с пропусками.

В модель заполнения, автоматически выбираемую SPSS, мы ввели все имеющиеся в массиве переменные. Поскольку на каждую из этих переменных в массиве имеется как минимум одна другая переменная, с которой наблюдается статистическая связь, введение в массив и модель дополнительных переменных для повышения точности расчетов импутируемых значений не требуется.

В связи с тем, что модели импутации для номинальных переменных «тип населенного пункта» и «трудовые отношения», строящиеся при использовании настроек по умолчанию, включали слишком много параметров, в модель были внесены следующие корректировки:

1. максимальное число разрешенных параметров для модели импутации было увеличено со 100 до 500 при помощи внесения в подкоманду IMPUTE строчки MAXMODELPARAM=500; данная коррекция не влияет на качество заполнения, а лишь увеличивает время выполнения команды.

2. Интервальные переменные «положение на шкале левое-правое крыло», «количество лет очного образования» и «удовлетворенность системой образования», были только импутированы, но не использовались в качестве предикторов для других моделей импутации, поскольку эти переменные создавали большое количество категорий для логистической регрессии, рассчитывающей значения для заполнения пропусков в дискретных переменных, но сами по себе ввиду их слабых или отсутствующих связей со многими переменными в модели не несли особой пользы для расчетов значений для заполнения прочих переменных.

В качестве метода импутации нами была выбрана полностью условная спецификация, поскольку структура пропущенных данных в экспериментальных массивах немонотонная, в качестве модели для импутации количественных переменных - линейная регрессия, для дискретных переменных SPSS по умолчанию применяет логистическую регрессию. Итогом данного шага стали 15 массивов, состоящих из полных наблюдений с импутированными значениями, по 5 для каждой из трех возможных долей искусственных пропусков.

Анализ данных на отдельных массивах с заполненными пропусками и агрегирование с применением правила Рубина

На каждом из 15 полученных массивов реализуются те же операции, что проводились на эталонном массиве, после чего результаты анализа данных агрегируются с применением правила Рубина и процедуры бутстреп для каждого из экспериментальных массивов с разными долями заполненных значений. В используемом нами пакете SPSS не автоматизирована процедура бутстреп для импутированных данных, поэтому агрегирование показателей производилась вручную с использованием приложения Excel на основании результатов бутстрепа в каждом из подмассивов (интересующего нас показателя и его стандартной ошибки) с применением уже описанных нами формул:

1. Для рассчета показателя:

2: Для оценки агрегированной стандартной ошибки - внутригрупповая дисперсия:

и межгрупповая дисперсия:

,

при помощи которых вычислялась общая дисперсия:

.

3. Для проверки гипотез - критическое значение t-статистики со степенями свободы, рассчитанными по формуле:

,

И t-эмпирическим, равным .

Результаты расчета агрегированных при помощи правила Рубина результатов анализа данных приведены в Приложении 2.

Агрегирование при помощи усреднения пропущенных значений и анализ данных на усредненных массивах

На этом этапе используются 15 массивов, полученные на шаге 5 в результате множественного заполнения пропусков в трех массивах разными долями пропущенных значений.

Для пяти массивов, содержащих по 10% заполненных данных, мы производим усреднение заполненных значений по следующей схеме:

· подставленные значения в переменных, измеренных по номинальной шкале, «усредняются» при помощи моды:

· подставленные значения в переменных, измеренных по порядковой шкале, «усредняются» при помощи медианы;

· подставленные значения в переменных, измеренных по интервальной шкале, усредняются при помощи среднего арифметического.

Эти же операции мы производим для пяти массивов с 30% пропусков и для пяти массивов с 50% пропусков, получая в результате три массива с усредненными подставленными значениями. Для того, чтобы усреднить результаты множественного заполнения пропусков и снова получить единый массив, нами были предприняты следующие практические действия.

В приложении Excel для каждого наблюдения были сопоставлены пять значений каждой переменной и усреднены при помощи соответствующей меры центральной тенденции. Мы не дифференцировали значения, подставленные в результате множественного заполнения, и значения, не подвергшиеся удалению на шаге внесения искусственных пропусков («изначальные» ответы респондентов), поскольку последние не изменяются от массива к массиву, а мерой центральной тенденции для пяти одинаковых чисел, очевидно, будет само это число. Усредненные таким образом значения были снова отсортированы по столбцу ID и благодаря этому мы смогли перенести их в новую базу данных SPSS в том же порядке, в котором они располагались в изначальном массиве с пропусками.

Результатом этой процедуры стали три массива из полных наблюдений, в которых было восстановлено 10%, 30% и 50% пропусков, на которых мы произвели анализ данных по той же схеме, что и на эталонном массиве, получая тот же набор доверительных интервалов для статистик с применением процедуры бутстреп.

Сравнение результатов анализа данных с применением разных подходов к агрегированию результатов множественного заполнения пропусков с эталонными

Для того, чтобы сравнить эффективность подходов к агрегированию результатов множественного заполнения пропусков, мы используем два основных критерия, введенных для схожих целей в [4].

Первым критерием эффективности подхода к агрегированию результатов множественного заполнения пропусков будет служить пересечение эталонного доверительного интервала для оценки параметра с доверительным интервалом оценки, полученной на каждом из заполненных массивов, образованных на этапах 7 и 8, в рамках конкретной исследовательской ситуации, которое мы будем оценивать при помощи степени отклонения доверительных интервалов (Д) И.К. Зангиева, Е.С. Тимонина. Сравнение эффективности алгоритмов заполнения пропусков в данных в зависимости от используемого метода анализа // Мониторинг общественного мнения: экономические и социальные перемены. 2014. Т. 1. № 119. С. 41-55, стр. 45:

,

где

x_e - нижняя граница эталонного доверительного интервала

x_n - нижняя граница доверительного интервала, полученная после заполнения пропусков

y_e- верхняя граница эталонного доверительного интервала

y_n - верхняя граница доверительного интервала, полученная после заполнения пропусков.

Формула, таким образом, выражает отношение абсолютного отклонения доверительного интервала, полученного после заполнения пропусков, от эталонного доверительного интервала, к длине эталонного доверительного интервала. Критерий принимает значения от нуля (в том случае, когда доверительный интервал после заполнения пропусков совпадает с эталонным доверительным интервалом) до бесконечности, следовательно, чем меньше значение показателя, тем эффективнее подход к агрегированию результатов множественного заполнения пропусков.

Второй критерий заключается в оценке устойчивости доверительных интервалов при изменении количества выборок, создаваемых при помощи процедуры бутстреп. Под устойчивостью в данном случае подразумевается неизменность доверительных интервалов при разном количестве извлекаемых бутстрепом выборок.

В следующей главе мы сравним результаты, полученные с помощью каждого подхода к агрегированию результатов множественного заполнения пропусков. На основе результатов этого сравнения мы сможем составить набор рекомендаций по выбору подхода для описанных нами выше исследовательских ситуаций.

Глава 3. Сравнительный анализ подходов к агрегированию результатов множественного заполнения пропусков

В данной главе мы рассмотрим результаты сравнения эффективности подходов к агрегированию результатов множественного заполнения пропусков. Как говорилось выше, сравнение будет производиться на основании двух критериев - степени пересечения доверительных интервалов с эталоном и устойчивости результатов при увеличении количества извлекаемых с помощью бутстрепа выборок - для каждой из смоделированных нами исследовательских ситуаций.

Описательная статистика

Рассмотрим степени отклонения доверительных интервалов в ситуации 10% пропущенных значений в массиве и вычисления доверительных интервалов для долей применительно к интервальной шкале.

Таблица 3. Сравнение эффективности правила Рубина и усреднения подставленных значений для оценки долей значений номинальной переменной в массиве с 10% импутированных значений

Количество извлеченных выборок	Значение признака	Способ агрегирования	Точечная оценка	Нижняя граница ДИ	Верхняя граница ДИ	Степень отклонения
1000	Мегаполис	Правило Рубина	40,8	36,9	44,7	39%
		Усреднение	41,6	37,8	45,7	16%
	Пригород	Правило Рубина	6,4	4,5	8,3	203%
		Усреднение	6,7	4,7	8,6	221%
	Маленький город	Правило Рубина	33	29,3	36,7	27%
		Усреднение	29,2	25,3	33,1	130%
	Деревня	Правило Рубина	16,3	13,2	19,3	127%
		Усреднение	19,6	16,6	23	16%
10 000	Мегаполис	Правило Рубина	40,8	36,9	44,7	37%
		Усреднение	41,6	37,7	45,5	16%
	Пригород	Правило Рубина	6,4	4,5	8,3	207%
		Усреднение	6,7	4,7	8,6	225%
	Маленький город	Правило Рубина	33	29,3	36,7	28%
		Усреднение	32,1	28,5	35,9	49%
	Деревня	Правило Рубина	19,8	16,6	23	16%
		Усреднение	19,6	16,5	22,8	20%
Количество извлеченных выборок	Значение признака	Способ агрегирования	Точечная оценка	Нижняя граница ДИ	Верхняя граница ДИ	Степень отклонения
50 000	Мегаполис	Правило Рубина	40,8	36,9	44,7	37%
		Усреднение	41,6	37,7	45,5	16%
	Пригород	Правило Рубина	6,4	4,5	8,3	207%
		Усреднение	6,7	4,7	8,6	225%
	Маленький город	Правило Рубина	33	29,3	36,7	28%
		Усреднение	32,1	28,5	35,9	49%
	Деревня	Правило Рубина	19,8	16,6	23	16%
		Усреднение	19,6	16,5	22,7	22%

Только для самой большой выборочной доли признака усреднение подставленных значений показало большую эффективность, чем правило Рубина. Если рассматривать все четыре доли, то правило Рубина оказалось эффективнее (то есть дало результаты, которые оказались ближе к эталонным) или настолько же эффективно, как усреднение подставленных значений (к примеру, для доли людей, проживающих в деревне, при извлечении 10 000 выборок разница в долях составила всего 4%, что можно списать на статистическую погрешность), в трех случаях из четырех, и этот результат оставался неизменным при увеличении количества выборок, извлекаемых процедурой бутстреп.

Таблица 4. Сравнение эффективности правила Рубина и усреднения подставленных значений для оценки долей номинальной переменной в массиве с 30% импутированных значений

Количество извлеченных выборок	Значение признака	Способ агрегирования	Точечная оценка	Нижняя граница ДИ	Верхняя граница ДИ	Степень отклонения
1000	Мегаполис	Правило Рубина	39,9	36	43,7	62%
		Усреднение	39,5	35,6	43,2	73%
	Пригород	Правило Рубина	11,7	9,1	14,3	569%
		Усреднение	13,9	11,3	16,6	724%
	Маленький город	Правило Рубина	30,3	26,7	34	99%
		Усреднение	29,2	25,3	33,1	130%
	Деревня	Правило Рубина	18,1	15,1	21,2	67%
		Усреднение	17,5	14,5	20,6	86%
Количество извлеченных выборок	Значение признака	Способ агрегирования	Точечная оценка	Нижняя граница ДИ	Верхняя граница ДИ	Степень отклонения
10 000	Мегаполис	Правило Рубина	39,9	36	43,7	61%
		Усреднение	39,5	35,7	43,4	68%
	Пригород	Правило Рубина	11,7	9,1	14,3	586%
		Усреднение	13,9	11,1	16,6	739%
	Маленький город	Правило Рубина	30,3	26,7	34	99%
		Усреднение	29,2	25,6	32,8	129%
	Деревня	Правило Рубина	18,1	15,1	21,2	67%
		Усреднение	17,5	14,5	20,6	86%
50 000	Мегаполис	Правило Рубина	39,9	36	43,7	61%
		Усреднение	39,5	35,7	43,4	68%
	Пригород	Правило Рубина	11,7	9,1	14,3	586%
		Усреднение	13,9	11,3	16,6	746%
	Маленький город	Правило Рубина	30,3	26,7	34	99%
		Усреднение	29,2	25,6	32,8	129%
	Деревня	Правило Рубина	18,1	15,1	21,2	67%
		Усреднение	17,5	14,5	20,6	86%

В массивах с 30% подставленных значений в каждом случае доверительный интервал, рассчитанный при помощи правила Рубина, оказывался ближе к эталонному, чем вычисленный на аналогичном усредненном массиве. Минимальная разница в степени отклонения составила 7%, максимальная - 178%, причем результаты демонстрируют высокую устойчивость при увеличении количества извлекаемых выборок. Для массивов с 30% пропусков, таким образом, более эффективным оказалось правило Рубина.

Таблица 5 Сравнение эффективности правила Рубина и усреднения подставленных значений для оценки долей номинальной переменной в массиве с 50% импутированных значений

Количество извлеченных выборок	Значение признака	Способ агрегирования	Точечная оценка	Нижняя граница ДИ	Верхняя граница ДИ	Степень отклонения
1000	Мегаполис	Правило Рубина	35,4	31,6	39,2	171%
		Усреднение	35,9	32,1	39,5	161%
	Пригород	Правило Рубина	17,1	14,1	20,1	941%
		Усреднение	19,7	16,6	23	1128%
	Маленький город	Правило Рубина	29,5	25,9	33,2	120%
		Усреднение	27,6	24	31	176%
	Деревня	Правило Рубина	17,9	14,8	21	75%
		Усреднение	16,8	13,9	19,7	109%
Количество извлеченных выборок	Значение признака	Способ агрегирования	Точечная оценка	Нижняя граница ДИ	Верхняя граница ДИ	Степень отклонения
10 000	Мегаполис	Правило Рубина	35,4	31,6	39,2	173%
		Усреднение	35,9	32,1	39,6	162%
	Пригород	Правило Рубина	17,1	14,1	20,1	971%
		Усреднение	19,7	16,6	23	1164%
	Маленький город	Правило Рубина	29,5	25,9	33,2	120%
		Усреднение	27,6	24	31,2	172%
	Деревня	Правило Рубина	17,9	14,8	21	75%
		Усреднение	16,8	13,9	19,7	109%
50 000	Мегаполис	Правило Рубина	35,4	31,6	39,2	173%
		Усреднение	35,9	32,1	39,6	162%
	Пригород	Правило Рубина	17,1	14,1	20,1	971%
		Усреднение	19,7	16,6	23	1164%
	Маленький город	Правило Рубина	29,5	25,9	33,2	120%
		Усреднение	27,6	24	31,2	172%
	Деревня	Правило Рубина	17,9	14,8	21	75%
		Усреднение	16,8	13,9	19,7	109%

Ожидаемо, на массивах с 50% пропусков оба подхода показали достаточно низкую эффективность: для самой маленькой выборочной доли из четырех степень отклонения доверительного интервала достигает 1164%, в остальном же результаты повторяют полученные на массиве с 10% подставленных значений: доверительный интервал для самой большой выборочной доли оказывается ближе к эталонному при использовании усреднения подставленных значений, а для всех остальных - при использовании правила Рубина.

Таким образом, при любом количестве пропусков в массиве для описания номинальной переменной более эффективным подходом оказывается применение правила Рубина.

Далее рассмотрим результаты сравнения эффективности подходов применительно к описательной статистике для порядковых переменных, где мы также использовали доли значений признака для описания переменной.

Таблица 6. Сравнение эффективности правила Рубина и усреднения подставленных значений для оценки долей порядковой переменной в массиве с 10% импутированных значений

Количество извлеченных выборок	Значение признака	Способ агрегирования	Точечная оценка	Нижняя граница ДИ	Верхняя граница ДИ	Степень отклонения
1000	Очень заинтересован	Правило Рубина	17,5	14,5	20,6	25%
		Усреднение	17,1	14,4	20,1	14%
	Довольно заинтересован	Правило Рубина	42,4	38,5	46,3	0%
		Усреднение	44	40,5	48	47%
	Едва ли заинтересован	Правило Рубина	29,8	26,2	33,4	25%
		Усреднение	29,4	25,9	32,8	38%
	Совершенно не заинтересован	Правило Рубина	10,3	7,9	12,7	6%
		Усреднение	9,5	7,2	11,7	29%
10 000	Очень заинтересован	Правило Рубина	17,5	14,5	20,6	26%
		Усреднение	17,1	14,2	20,2	14%
	Довольно заинтересован	Правило Рубина	42,6	38,7	46,5	0%
		Усреднение	44	40,1	48,1	38%
	Едва ли заинтересован	Правило Рубина	29,8	26,2	33,4	26%
		Усреднение	29,4	25,8	33	37%
	Совершенно не заинтересован	Правило Рубина	10,3	7,9	12,7	11%
		Усреднение	9,5	7,2	11,9	21%
50 000	Очень заинтересован	Правило Рубина	17,5	14,5	20,6	26%
		Усреднение	17,1	14,2	20,2	14%
	Довольно заинтересован	Правило Рубина	42,6	38,7	46,5	0%
		Усреднение	44	40,1	48,1	38%
	Едва ли заинтересован	Правило Рубина	29,8	26,2	33,4	26%
		Усреднение	29,4	25,8	33	37%
	Совершенно не заинтересован	Правило Рубина	10,3	7,9	12,7	11%
		Усреднение	9,5	7,2	11,9	21%

Для массива с 10% подставленных значений ситуация аналогична той, которую мы наблюдали в результатах анализа номинальной переменной: при любом количестве извлеченных выборок наиболее близкие к эталонным результаты, а значит и более высокую эффективность, показывает применение правила Рубина для всех долей, кроме доли значения «Очень заинтересован». Отклонение в пользу усреднения для этого значения признака составило 11-12%, а в пользу правила Рубина для всех остальных долей - от 10% до 47%. Для данной исследовательской ситуации, таким образом, более эффективным подходом к агрегированию результатов множественного заполнения пропусков можно назвать применение правила Рубина.

Таблица 7. Сравнение эффективности правила Рубина и усреднения подставленных значений для оценки долей порядковой переменной в массиве с 30% импутированных значений

Количество извлеченных выборок	Значение признака	Способ агрегирования	Точечная оценка	Нижняя граница ДИ	Верхняя граница ДИ	Степень отклонения
1000	Очень заинтересован	Правило Рубина	39,5	35,7	43,4	796%
		Усреднение	15,7	12,7	18,8	39%
	Довольно заинтересован	Правило Рубина	39,5	35,7	43,4	73%
		Усреднение	44,9	40,8	48,6	59%
	Едва ли заинтересован	Правило Рубина	27,8	24,3	31,4	79%
		Усреднение	30,3	26,6	34,1	10%
	Совершенно не заинтересован	Правило Рубина	15,7	12,8	18,6	227%
		Усреднение	9,1	7	11,3	41%
10 000	Очень заинтересован	Правило Рубина	39,5	35,7	43,4	784%
		Усреднение	15,7	12,9	18,6	36%
	Довольно заинтересован	Правило Рубина	39,5	35,7	43,4	78%
		Усреднение	44,9	40,9	48,8	58%
	Едва ли заинтересован	Правило Рубина	27,8	24,3	31,4	79%
		Усреднение	30,3	26,8	34,1	8%
	Совершенно не заинтересован	Правило Рубина	15,7	12,8	18,6	240%
		Усреднение	9,1	6,9	11,4	38%
50 000	Очень заинтересован	Правило Рубина	39,5	35,7	43,4	784%
		Усреднение	15,7	12,9	18,6	36%
	Довольно заинтересован	Правило Рубина	39,5	35,7	43,4	78%
		Усреднение	44,9	40,9	48,8	58%
	Едва ли заинтересован	Правило Рубина	27,8	24,3	31,4	79%
		Усреднение	30,3	26,8	34	10%
	Совершенно не заинтересован	Правило Рубина	15,7	12,8	18,6	240%
		Усреднение	9,1	6,9	11,4	38%

Для массива с 30% пропусков ситуация обстоит иначе: доверительные интервалы для всех четырех долей при любом количестве извлеченных выборок более точно (ближе к эталонному результату) оценивались в том случае, если агрегирование производилось при помощи усреднения подставленных значений. Результат, таким образом, можно назвать устойчивым, а отклонение доверительных интервалов в пользу усреднения подставленных значений составило от 14% до 748%.

Таблица 8. Сравнение эффективности правила Рубина и усреднения подставленных значений для оценки долей порядковой переменной в массиве с 50% импутированных значений

Количество извлеченных выборок	Значение признака	Способ агрегирования	Точечная оценка	Нижняя граница ДИ	Верхняя граница ДИ	Степень отклонения
1000	Очень заинтересован	Правило Рубина	19,1	16	22,2	79%
		Усреднение	17,1	14,2	20,1	11%
	Довольно заинтересован	Правило Рубина	38,7	34,8	42,5	96%
		Усреднение	51,4	47	55,1	222%
	Едва ли заинтересован	Правило Рубина	25,9	22,4	29,3	135%
		Усреднение	25,4	22,2	29,2	139%
	Совершенно не заинтересован	Правило Рубина	16,4	13,5	19,3	255%
		Усреднение	6	4,2	8	165%
10 000	Очень заинтересован	Правило Рубина	19,1	16	22,2	79%
		Усреднение	17,1	14,2	20,1	12%
	Довольно заинтересован	Правило Рубина	38,7	34,8	42,5	101%
		Усреднение	38,7	34,8	42,5	101%
	Едва ли заинтересован	Правило Рубина	25,9	22,4	29,3	134%
		Усреднение	25,4	22	28,9	145%
	Совершенно не заинтересован	Правило Рубина	16,4	13,5	19,3	270%
		Усреднение	6	4,2	8	168%
50 000	Очень заинтересован	Правило Рубина	19,1	16	22,2	79%
		Усреднение	17,1	14,2	20,1	12%
	Довольно заинтересован	Правило Рубина	38,7	34,8	42,5	101%
		Усреднение	38,7	34,8	42,5	101%
	Едва ли заинтересован	Правило Рубина	25,9	22,4	29,3	134%
		Усреднение	25,4	22	28,9	145%
	Совершенно не заинтересован	Правило Рубина	16,4	13,5	19,3	270%
		Усреднение	6	4,2	8	168%

Применительно к массиву с 50% пропусков оба подхода имеют одинаковую эффективность при любом количестве извлеченных выборок: для 1 000 выборок правило Рубина и усреднение оказались эффективнее по два раза из четырех, для 10 000 и 50 000 выборок в двух случаях эффективнее оказывалось усреднение, в одном - правило Рубина, и еще в одном оба подхода были эффективны в равной степени. Мы можем сделать общий для описания порядковой переменной вывод, что в ситуации этой ситуации подход к агрегированию следует выбирать в зависимости от доли пропусков в массиве: для 10% пропусков более эффективным оказывается применение правила Рубина, для 30% - усреднение подставленных значений до проведения анализа данных, а для 50% пропусков оба подхода имеют одинаковую эффективность.

Таблица 9. Сравнение эффективности правила Рубина и усреднения подставленных значений для оценки среднего и дисперсии количества лет очного образования

Доля пропусв	Кол-тво извлеч выбок	Параметр	Способ агрегирования	Точечная оценка	Нижняя граница ДИ	Верхняя граница ДИ	Степень отклонения
10%	1000	Среднее	Правило Рубина	13,07	13,04	13,10	87%
			Усреднение	13,07	12,85	13,30	21%
		Дисперсия	Правило Рубина	8,61	8,55	8,67	95%
			Усреднение	8,077	6,966	9,293	28%
	10 000	Среднее	Правило Рубина	13,07	13,04	13,10	87%
			Усреднение	13,07	12,85	13,29	26%
		Дисперсия	Правило Рубина	8,61	8,55	8,67	95%
			Усреднение	8,077	7,004	9,242	27%
	50 000	Среднее	Правило Рубина	13,07	13,04	13,10	87%
			Усреднение	13,07	12,85	13,29	26%
		Дисперсия	Правило Рубина	8,61	8,55	8,67	95%
			Усреднение	8,077	7,009	9,245	27%
30%	1000	Среднее	Правило Рубина	13,06	13,03	13,09	87%
			Усреднение	13,05	12,87	13,25	28%
		Дисперсия	Правило Рубина	0,08	8,02	8,14	95%
			Усреднение	6,150	5,327	6,920	204%
	10 000	Среднее	Правило Рубина	13,06	13,03	13,09	87%
			Усреднение	13,05	12,86	13,25	33%
		Дисперсия	Правило Рубина	0,08	8,02	8,14	95%
			Усреднение	6,150	5,387	6,954	197%
	50 000	Среднее	Правило Рубина	13,06	13,03	13,09	87%
			Усреднение	13,05	12,86	13,25	33%
		Дисперсия	Правило Рубина	0,08	8,02	8,14	95%
			Усреднение	6,150	5,367	6,966	197%
50%	1000	Среднее	Правило Рубина	13,05	13,02	13,08	87%
			Усреднение	13,05	12,88	13,23	30%
		Дисперсия	Правило Рубина	8,85	8,78	8,92	94%
			Усреднение	4,894	4,276	5,546	311%
	10 000	Среднее	Правило Рубина	13,05	13,02	13,08	87%
			Усреднение	13,05	12,88	13,23	33%
		Дисперсия	Правило Рубина	8,85	8,78	8,92	94%
			Усреднение	4,894	4,249	5,552	308%
	50 000	Среднее	Правило Рубина	13,05	13,02	13,08	87%
			Усреднение	13,05	12,88	13,23	33%
		Дисперсия	Правило Рубина	8,85	8,78	8,92	94%
			Усреднение	4,894	4,258	5,568	306%

Для вычисления среднего и дисперсии интервальной переменной результаты моделирования демонстрируют следующие тенденции:

· В случае, когда анализ осуществлялся на массивах с 10% заполненных значений, как для среднего, так и для дисперсии более эффективным подходом к агрегированию оказалось усреднение пропущенных значений при любом количестве извлекаемых бутстрепом выборок.

· В случае, когда анализ осуществлялся на массивах с 30% пропущенных значений для вычисления среднего более эффективным подходом к агрегированию оказалось усреднение подставленных значений, а для дисперсии - применение правила Рубина.

· В случае, когда анализ осуществлялся на массиве с 50% заполненных значений, для вычисления среднего более эффективным оказалось также усреднение пропущенных значений, а для дисперсии - правило Рубина вне зависимости от количества извлекаемых бутстрепом выборок. Перейдем к рассмотрению результатов анализа данных с применением коэффициентов, предназначенных для поиска связи между двумя признаками. Поиск связи между двумя признаками

Перейдем к сравнению эффективности подходов к агрегированию применительно к методам поиска связи между признаками, начиная с коэффициента V Крамера, предназначенного для поиска немонотонной связи между признаками.

Таблица 10. Сравнение эффективности правила Рубина и усреднения подставленных значений для оценки коэффициента V Крамера в ситуации отсутствия связи (переменные «пол» и «тип населенного пункта»)

Доля пропусков	Количество извлеченных выборок	Способ агрегирования	Точечная оценка	Нижняя граница ДИ	Верхняя граница ДИ	Степень отклонения
10%	1000	Правило Рубина	0,08	0,07	0,1	77%
		Усреднение	0,094	0,043	0,182	20%
	10 000	Правило Рубина	0,08	0,07	0,1	78%
		Усреднение	0,094	0,044	0,186	24%
	50 000	Правило Рубина	0,08	0,07	0,1	78%
		Усреднение	0,094	0,044	0,186	24%
30%	1000	Правило Рубина	0,09	0,07	0,1	77%
		Усреднение	0,098	0,042	0,195	29%
	10 000	Правило Рубина	0,09	0,07	0,1	78%
		Усреднение	0,098	0,044	0,193	29%
	50 000	Правило Рубина	0,09	0,07	0,1	78%
		Усреднение	0,098	0,044	0,193	29%
50%	1000	Правило Рубина	0,12	0,1	0,13	77%
		Усреднение	0,141	0,08	0,224	79%
	10 000	Правило Рубина	0,12	0,1	0,13	78%
		Усреднение	0,141	0,079	0,226	79%
	50 000	Правило Рубина	0,12	0,1	0,13	78%
		Усреднение	0,141	0,08	0,228	81%

В ситуации отсутствия немонотонной связи между признаками более эффективным подходом оказывается усреднение подставленных значений для небольшого количества пропусков (10-30%), но в случае, если доля пропусков высока (50%) разница между степенью отклонения для двух подходов составила меньше 5%, что можно списать на статистическую погрешность, а значит, в этой исследовательской ситуации можно говорить об одинаковой эффективности обоих подходов. При увеличении количества извлекаемых бутстрепом выборок данные результаты оказались устойчивыми.

Таблица 11Сравнение эффективности правила Рубина и усреднения подставленных значений для оценки коэффициента V Крамера в ситуации наличия связи (переменные «пол» и «трудовые отношения»)

Доля пропусков	Количество извлеченных выборок	Способ агрегирования	Точечная оценка	Нижняя граница ДИ	Верхняя граница ДИ	Степень отклонения
10%	1000	Правило Рубина	0,16	0,14	0,18	91%
		Усреднение	0,156	0,075	0,236	84%
	10 000	Правило Рубина	0,16	0,14	0,18	90%
		Усреднение	0,156	0,074	0,230	78%
	50 000	Правило Рубина	0,16	0,14	0,18	90%
		Усреднение	0,156	0,074	0,230	78%
30%	1000	Правило Рубина	0,163	0,159	0,167	95%
		Усреднение	0,162	0,078	0,247	95%
	10 000	Правило Рубина	0,163	0,159	0,167	94%
		Усреднение	0,162	0,078	0,243	90%
	50 000	Правило Рубина	0,163	0,159	0,167	94%
		Усреднение	0,162	0,078	0,242	90%
50%	1000	Правило Рубина	0,07	0,05	0,09	70%
		Усреднение	0,099	0,021	0,181	20%
	10 000	Правило Рубина	0,07	0,05	0,09	71%
		Усреднение	0,099	0,020	0,180	18%
	50 000	Правило Рубина	0,07	0,05	0,09	71%
		Усреднение	0,099	0,020	0,180	18%

В ситуации же наличия связи между признаками усреднение подставленных значений является более эффективным подходом к агрегированию результатов заполнения для самой большой и самой маленькой долей пропусков при любом количестве извлекаемых бутстрепом выборок, разница степени отклонения в пользу усреднения составила 7-53%. Для 30%-й доли пропусков при любом количестве выборок разница между степенями отклонения для того или иного подхода составила от 0% до 4%, что мы можем списать на статистическую погрешность, поэтому в данной исследовательской ситуации оба подхода демонстрируют одинаковую эффективность. Таким образом, при вычислении коэффициента V Крамера усреднение подставленных значений предпочтительнее во всех исследовательских ситуациях, за исключением ситуации отсутствия немонотонной связи между признаками и большого количества пропусков в массиве, а также 30% пропусков и наличия немонотонной связи между признаками: в этих случаях оба подхода одинаково эффективны.

Перейдем к сравнению результатов применительно к поиску связи между порядковыми признаками с использованием рангового коэффициента корреляции Спирмена.

Таблица 12 Сравнение эффективности правила Рубина и усреднения подставленных значений для оценки коэффициента корреляции Спирмена в ситуации отсутствия связи (переменные «близость к партии» и «субъективная оценка здоровья»)

Доля пропусков	Количество извлеченных выборок	Способ агрегирования	Точечная оценка	Нижняя граница ДИ	Верхняя граница ДИ	Степень отклонения
10%	1000	Правило Рубина	-0,01	-0,02	0,01	81%
		Усреднение	0,026	-0,062	0,105	37%
	10 000	Правило Рубина	-0,01	-0,02	0,01	80%
		Усреднение	0,026	-0,054	0,105	41%
	50 000	Правило Рубина	-0,01	-0,02	0,01	81%
		Усреднение	0,026	-0,051	0,107	43%
30%	1000	Правило Рубина	-0,06	-0,08	0,04	25%
		Усреднение	-0,091	-0,168	0,01	89%
	10 000	Правило Рубина	-0,06	-0,08	0,04	22%
		Усреднение	-0,091	-0,167	0,012	94%
	50 000	Правило Рубина	-0,06	-0,08	0,04	23%
		Усреднение	-0,091	-0,167	0,012	93%
50%	1000	Правило Рубина	-0,04	-0,05	-0,02	81%
		Усреднение	-0,059	-0,138	0,016	66%
	10 000	Правило Рубина	-0,04	-0,05	-0,02	80%
		Усреднение	-0,059	-0,137	0,017	71%
	50 000	Правило Рубина	-0,04	-0,05	-0,02	81%
		Усреднение	-0,059	-0,137	0,017	70%

Применительно к раноговому коэффициенту Спирмена правило Рубина является более эффективным подходом к агрегированию в том случае, если исследовательская ситуация характеризуется отсутствием монотонной связи между признаками и средним количеством пропусков в массиве (разница степени отклонения в пользу правила Рубина составила от 64% до 72%). В случаях отсутствия связи и очень большого или очень маленького количества пропусков, усреднение подставленных значений оказывается более эффективным (разница составила от 11% до 44%). В данном случае также наблюдается устойчивость результатов вне зависимости от количества извлекаемых бутстрепом выборок.

Таблица 13. Сравнение эффективности правила Рубина и усреднения подставленных значений для оценки коэффициента корреляции Спирмена в ситуации наличия связи («интерес к политике» и «длительность просмотра новостей в будний день»)

Доля пропусков	Количество извлеченных выборок	Способ агрегирования	Точечная оценка	Нижняя граница ДИ	Верхняя граница ДИ	Степень отклонения
10%	1000	Правило Рубина	-0,33	-0,35	-0,31	87%
		Усреднение	-0,346	-0,423	-0,270	63%
	10 000	Правило Рубина	-0,33	-0,35	-0,31	86%
		Усреднение	-0,346	-0,421	-0,269	64%
	50 000	Правило Рубина	-0,33	-0,35	-0,31	86%
		Усреднение	-0,346	-0,419	-0,269	66%
30%	1000	Правило Рубина	-0,16	-0,18	-0,14	335%
		Усреднение	-0,141	-0,224	-0,056	364%
	10 000	Правило Рубина	-0,16	-0,18	-0,14	329%
		Усреднение	-0,141	-0,224	-0,056	357%
	50 000	Правило Рубина	-0,16	-0,18	-0,14	329%
		Усреднение	-0,141	-0,224	-0,056	357%
50%	1000	Правило Рубина	-0,04	-0,05	-0,02	518%
		Усреднение	-0,151	-0,229	-0,069	351%
	10 000	Правило Рубина	-0,04	-0,05	-0,02	507%
		Усреднение	-0,151	-0,228	-0,074	341%
	50 000	Правило Рубина	-0,04	-0,05	-0,02	507%
		Усреднение	-0,151	-0,228	-0,075	341%

В случае наличия монотонной связи между признаками ситуация является идентичной: более эффективным устойчиво для любого количества выборок оказывается правило Рубина для среднего количества пропусков в массиве (разница степеней отклонения в пользу правила Рубина составляет 28-29%) и усреднение подставленных значений для очень большого и маленького количества пропусков (разница составляет степеней отклонения составляет 20-167%).

Таблица 14 Сравнение эффективности правила Рубина и усреднения подставленных значений для оценки коэффициента корреляции Пирсона в ситуации отсутствия связи (переменные «количество лет очного образования» и «положение на шкале левое-правое крыло»)

Доля пропусков	Количество извлеченных выборок	Способ агрегирования	Точечная оценка	Нижняя граница ДИ	Верхняя граница ДИ	Степень отклонения
10%	1000	Правило Рубина	-0,04	-0,05	-0,02	81%
		Усреднение	-0,047	-0,128	-0,030	38%
	10 000	Правило Рубина	-0,04	-0,05	-0,02	81%
		Усреднение	-0,047	-0,125	-0,032	43%
	50 000	Правило Рубина	-0,04	-0,05	-0,02	81%
		Усреднение	-0,047	-0,125	-0,032	42%
30%	1000	Правило Рубина	-0,05	-0,07	-0,03	75%
		Усреднение	-0,084	-0,160	-0,005	3%
	10 000	Правило Рубина	-0,05	-0,07	-0,03	75%
		Усреднение	-0,084	-0,160	-0,007	9%
	50 000	Правило Рубина	-0,05	-0,07	-0,03	75%
		Усреднение	-0,084	-0,160	-0,007	10%
50%	1000	Правило Рубина	-0,05	-0,06	-0,03	81%
		Усреднение	-0,106	-0,181	-0,029	31%
	10 000	Правило Рубина	-0,05	-0,06	-0,03	81%
		Усреднение	-0,106	-0,182	-0,029	36%
	50 000	Правило Рубина	-0,05	-0,06	-0,03	81%
		Усреднение	-0,106	-0,182	-0,029	37%

Применительно к коэффициенту корреляции Пирсона при любом из трех вариантов количества извлекаемых бутстрепом выборок более эффективным оказалось усреднение подставленных значений при всех рассмотренных долях пропусков в массиве как в случае наличия, так и в случае отсутствия линейной связи между признаками (таблицы 14 и 15). Разница степеней отклонения в пользу правила Рубина в случае отсутствия линейной связи составила от 38% до 72%, а в ситуации наличия линейной связи - от 53% до 191%.

Таблица 15. Сравнение эффективности правила Рубина и усреднения подставленных значений для оценки коэффициента корреляции Пирсона в ситуации наличия связи (переменные «уровень счастья» и «положение в обществе»)

Доля пропусков	Количество извлеченных выборок	Способ агрегирования	Точечная оценка	Нижняя граница ДИ	Верхняя граница ДИ	Степень отклонения
10%	1000	Правило Рубина	0,2	0,19	0,22	201%
		Усреднение	0,244	0,175	0,318	142%
	10 000	Правило Рубина	0,2	0,19	0,22	196%
		Усреднение	0,244	0,168	0,317	143%
	50 000	Правило Рубина	0,2	0,19	0,22	196%
		Усреднение	0,244	0,167	0,317	144%
30%	1000	Правило Рубина	0,12	0,1	0,13	328%
		Усреднение	0,166	0,090	0,239	258%
	10 000	Правило Рубина	0,12	0,1	0,13	323%
		Усреднение	0,166	0,092	0,239	251%
	50 000	Правило Рубина	0,12	0,1	0,13	323%
		Усреднение	0,166	0,092	0,239	251%
50%	1000	Правило Рубина	0,03	0,02	0,05	442%
		Усреднение	0,110	0,036	0,178	340%
	10 000	Правило Рубина	0,03	0,02	0,05	435%
		Усреднение	0,110	0,037	0,184	329%
	50 000	Правило Рубина	0,03	0,02	0,05	435%
		Усреднение	0,110	0,037	0,184	329%

Таким образом, моделирование позволило выявить следующие тенденции в отношении подходов к агрегированию результатов множественного заполнения пропусков для поиска связи между признаками:

· для поиска связи между двумя номинальными переменными с использованием коэффициента V Крамера более эффективным оказался метод усреднения подставленных значений для любой доли пропусков в случае наличия связи между признаками и для небольшого и среднего количества пропусков в массиве в случае отсутствия связи. В случае большой (50%) доли пропусков и отсутствия немонотонной связи, а также в случае наличия связи и средней доли пропусков (30%) оба подхода одинаково эффективны.

· для поиска связи между двумя порядковыми переменными с использованием коэффициента Спирмена усреднение подставленных значений оказалось эффективнее в ситуации очень большого и очень маленького количества пропусков в массиве; если же количество пропусков являлось средним (30%), то более эффективным подходом оказывалось правило Рубина как для ситуации отсутствия, так и для ситуации наличия связи между признаками;

· для поиска связи между двумя интервальными переменными с использованием коэффициента Пирсона в любой исследовательской ситуации усреднение подставленных значений оказывалось более эффективным подходом.

Далее рассмотрим результаты, полученные нами при моделировании множественной линейной регрессии.

Множественная линейная регрессия

Перейдем к сравнению эффективности подходов к агрегированию результатов множественного заполнения пропусков применительно к множественной линейной регрессии, рассматривая поочередно доверительные интервалы, вычисленные на массивах с разными долями заполненных значений.

· В случае, если в массиве присутствует небольшое число пропусков, мы можем наблюдать следующие тенденции:

· для константы границы доверительного интервала сильно колебались при изменении количества извлекаемых бутстрепом выборок для обоих подходов, однако в случаях 1 000 и 50 000 выборок этот интервал оказывался ближе к эталонному в том случае, если вычислялся на массиве с усредненными подставленными значениями;

· для всех четырех коэффициентов регрессии при значимых и незначимых предикторах более эффективным оказывалось применение правила Рубина.

Таблица 16 Сравнение эффективности правила Рубина и усреднения подставленных значений для оценки линейных регрессионных коэффициентов на массиве с 10% пропусков (зависимая переменная «положение в обществе»)

Член уравнения	Количество извлеченных выборок	Способ агрегирования	Точечная оценка	Нижняя граница ДИ	Верхняя граница ДИ	Степень отклонения
Константа	1000	Правило Рубина	4,05	4,00	4,11	225%
		Усреднение	4,887	3,731	6,029	210%
	10 000	Правило Рубина	4,05	3,98	4,13	223%
		Усреднение	4,887	3,771	5,971	306%
	50 000	Правило Рубина	4,05	3,98	4,13	318%
		Усреднение	4,887	3,747	5,996	305%
Длительность очного образования	1000	Правило Рубина	0,03	0,02	0,04	85%
		Усреднение	-0,037	-0,095	0,022	107%
	10 000	Правило Рубина	0,03	0,02	0,04	87%
		Усреднение	-0,037	-0,092	0,019	128%
	50 000	Правило Рубина	0,03	0,02	0,04	109%
		Усреднение	-0,037	-0,092	0,020	123%
Удовлетворенность системой образования	1000	Правило Рубина	0,04	0,02	0,05	79%
		Усреднение	0,142	0,075	0,204	132%
	10 000	Правило Рубина	0,04	0,02	0,05	77%
		Усреднение	0,142	0,076	0,207	156%
	50 000	Правило Рубина	0,04	0,02	0,05	101%
		Усреднение	0,142	0,08	0,205	159%
Уровень счастья	1000	Правило Рубина	0,17	0,16	0,19	197%
		Усреднение	0,022	-0,051	0,092	363%
	10 000	Правило Рубина	0,17	0,16	0,19	198%
		Усреднение	0,022	-0,049	0,092	450%
	50 000	Правило Рубина	0,17	0,16	0,19	286%
		Усреднение	0,022	-0,051	0,093	452%
Возраст	1000	Правило Рубина	-0,02	-0,02	-0,01	138%
		Усреднение	-0,007	-0,017	0,003	156%
	10 000	Правило Рубина	-0,02	-0,02	-0,01	138%
		Усреднение	-0,007	-0,017	0,002	56%
	50 000	Правило Рубина	-0,02	-0,02	-0,01	38%
		Усреднение	-0,007	-0,017	0,003	56%

Таблица 17 Сравнение эффективности правила Рубина и усреднения подставленных значений для оценки линейных регрессионных коэффициентов на массиве с 30% пропусков (зависимая переменная «положение в обществе»)

Член уравнения	Количество извлеченных выборок	Способ агрегирования	Точечная оценка	Нижняя граница ДИ	Верхняя граница ДИ	Степень отклонения
Константа	1000	Правило Рубина	5,76	5,54	5,8	313%
		Усреднение	6,153	4,802	7,551	271%
	10 000	Правило Рубина	5,76	5,54	5,8	310%
		Усреднение	6,153	4,740	7,592	360%
	50 000	Правило Рубина	5,76	5,54	5,8	405%
		Усреднение	6,153	4,729	7,575	360%
Длительность очного образования	1000	Правило Рубина	0	-0,01	0,02	51%
		Усреднение	-0,081	-0,158	-0,007	178%
	10 000	Правило Рубина	0	-0,01	0,02	53%
		Усреднение	-0,081	-0,154	-0,008	199%
	50 000	Правило Рубина	0	-0,01	0,02	75%
		Усреднение	-0,081	-0,154	-0,008	194%
Удовлетворенность системой образования	1000	Правило Рубина	-0,03	-0,04	-0,01	34%
		Усреднение	0,057	-0,009	0,123	53%
	10 000	Правило Рубина	-0,03	-0,04	-0,01	40%
		Усреднение	0,057	-0,009	0,123	73%
	50 000	Правило Рубина	-0,03	-0,04	-0,01	62%
		Усреднение	0,057	-0,009	0,124	73%
Уровень счастья	1000	Правило Рубина	0,11	0,09	0,12	252%
		Усреднение	0,007	-0,069	0,083	377%
	10 000	Правило Рубина	0,11	0,09	0,12	254%
		Усреднение	0,007	-0,066	0,081	464%
	50 000	Правило Рубина	0,11	0,09	0,12	341%
		Усреднение	0,007	-0,069	0,081	466%
Возраст	1000	Правило Рубина	-0,02	-0,03	-0,01	188%
		Усреднение	-0,07	-0,028	0,004	175%
	10 000	Правило Рубина	-0,02	-0,03	-0,01	188%
		Усреднение	-0,07	-0,028	0,004	75%
	50 000	Правило Рубина	-0,02	-0,03	-0,01	88%
		Усреднение	-0,07	-0,019	0,004	44%

Результаты анализа данных, проведенные на массивах с 30% подставленных значений, в целом, демонстрируют те же тенденции, что и для массивов с 10% подставленных значений, за одним исключением: для предиктора «Возраст респондента» со значимым регрессионным коэффициентом для любого количества извлекаемых бустрепом выборок более эффективных подходом оказалось усреднение подставленных значений. Учитывая первичный, пробный характер нашего исследования, мы не можем дать какой-либо теоретически подкрепленной интерпретации отличий именно для этого предиктора, однако можем отметить, что этот предиктор отличается от трех других, во-первых, тем, что он является значимым, и, во-вторых, тем, что измерен он в истинной интервальной шкале.

Таблица 18 Сравнение эффективности правила Рубина и усреднения подставленных значений для оценки линейных регрессионных коэффициентов на массиве с 50% пропусков (зависимая переменная «положение в обществе»)

Член уравнения	Количество извлеченных выборок	Способ агрегирования	Точечная оценка	Нижняя граница ДИ	Верхняя граница ДИ	Степень отклонения
Константа	1000	Правило Рубина	4,60	4,50	4,71	254%
		Усреднение	6,754	5,248	8,180	296%
	10 000	Правило Рубина	4,60	4,50	4,71	252%
		Усреднение	6,754	5,386	8,142	396%
	50 000	Правило Рубина	4,60	4,50	4,71	347%
		Усреднение	6,754	5,367	8,166	396%
Длительность очного образования	1000	Правило Рубина	0,02	0,00	0,04	63%
		Усреднение	-0,112	-0,191	-0,032	216%
	10 000	Правило Рубина	0,02	0,00	0,04	64%
		Усреднение	-0,112	-0,191	-0,035	241%
	50 000	Правило Рубина	0,02	0,00	0,04	86%
		Усреднение	-0,112	-0,190	-0,036	236%
Удовлетворенность системой образования	1000	Правило Рубина	-0,04	-0,06	-0,03	53%
		Усреднение	-0,008	-0,063	0,051	57%
	10 000	Правило Рубина	-0,04	-0,06	-0,03	60%
		Усреднение	-0,008	-0,067	0,050	90%
	50 000	Правило Рубина	-0,04	-0,06	-0,03	82%
		Усреднение	-0,008	-0,065	0,049	86%
Уровень счастья	1000	Правило Рубина	0,04	0,03	0,06	299%
		Усреднение	-0,011	-0,099	0,077	401%
	10 000	Правило Рубина	0,04	0,03	0,06	301%
		Усреднение	-0,011	-0,102	0,079	492%
	50 000	Правило Рубина	0,04	0,03	0,06	388%
		Усреднение	-0,011	-0,098	0,080	489%
Возраст	1000	Правило Рубина	0,00	0,00	0,01	263%
		Усреднение	-0,006	-0,018	0,006	150%
	10 000	Правило Рубина	0,00	0,00	0,01	263%
		Усреднение	-0,006	-0,019	0,006	44%
	50 000	Правило Рубина	0,00	0,00	0,01	163%
		Усреднение	-0,006	-0,019	0,006	44%

Результаты, полученные на массивах с 50% заполненных значений, в целом, повторяют результаты, полученные на массивах с меньшими долями пропусков, кроме того, что для константы при любом количестве извлеченных бутстрепом выборок более эффективным подходом оказалось правило Рубина. При этом для трех коэффициентов, доверительные интервалы для которых оказались ближе к эталону в случае применения усреднения подставленных значений, разница в степенях отклонения составила от 4% до 191%, а для коэффициента, который был точнее (ближе к эталону) оценен при использовании правила Рубина - от 113% до 219%, следовательно, во втором случае результаты оказались в среднем более чувствительными к изменению подхода к агрегированию. Поэтому с точки зрения частоты преобладания эффективности в данном случае более эффективным можно назвать усреднение пропущенных значений, а с точки зрения чувствительности результатов к изменению подхода - правило Рубина. Однако верхний предел разницы сопоставим в обоих случаях, поэтому, на наш взгляд, ориентироваться стоит все же на частоту.

Страница:

дипломная работа "Множественное заполнение пропусков как метод борьбы с пропущенными данными" скачать

Подобные документы

Логическое следствие результатов социологических исследований
Теоретическое обоснование проблемы интерпретации результатов социологических исследований. Определение и виды социологических исследований, процедура анализа их результатов. Практическое применение интерпретации данных социологических исследований.

курсовая работа [52,3 K], добавлен 10.01.2011
Микросоциологический и макросоциологический подходы: сравнительный анализ
Понятие и сущность макросоциологии и микросоциолгии. Изучение основных положений данных наук на основе проведения их сравнительного анализа. Поиск отличий и единства подходов к исследованию социальных структур и поведения людей в их взаимодействии.

реферат [19,4 K], добавлен 11.05.2014
Анализ и обработка социологической информации
Понятие метода и методики социологических исследований. Метод опроса в социологическом исследовании. Методы механической, серийной, гнездовой и квотной выборки. Создание широких сетей интервьюеров. Качественные методы анализа социологических данных.

курсовая работа [32,4 K], добавлен 27.05.2015
Социологическое исследование
Сущность социологического исследования. Этапы его проведения: разработка программы, сбор первичных данных путем опроса, наблюдения или эксперимента, проведение линейного и структурно-типологического анализа результатов исследования, их оформление.

реферат [37,1 K], добавлен 28.11.2010
Типология эмпирических социологических исследований
Понятие и типы социологических исследований, этапы их проведения, подготовительные и основные. Методы эмпирических социологических исследований, анализ и оценка, интерпретация полученных результатов, существующие проблемы и их решение, управление.

контрольная работа [22,8 K], добавлен 14.06.2015
Методика исследования в социальной работе
Программа социологического исследования. Основные методы сбора социологической информации: анализа документов, наблюдения, опроса, экспертной оценки и эксперимента. Обработка результатов исследования. Разделы статистики политической и общественной жизни.

курсовая работа [82,7 K], добавлен 21.02.2014
Прикладной характер метода эксперимента в социологии
Определение и виды эксперимента, его использование в науке. Особенности использования метода эксперимента в политических, социологических исследованиях. Применение метода эксперимента при проведении опросов о политических ориентациях жителей г. Астрахани.

курсовая работа [49,2 K], добавлен 22.06.2015
Региональные различия имущественной обеспеченности россиян
Проблема изучения различий в материальной обеспеченности населения России. Социальные научно-практические исследования. Подбор информационных ресурсов. Характеристикиа и качество ресурса в целом. Методика обработки данных и статистического анализа.

реферат [39,3 K], добавлен 03.11.2008
Методы сбора данных для анализа социально-экономических и политических процессов
Обзор методов проведения эмпирических исследований социально-экономических и политических процессов. Особенности анализа документов как метода проведения социологических исследований. Специфика методики массового опроса, эксперимента и наблюдения.

курсовая работа [78,7 K], добавлен 31.01.2014
Организация социологических исследований
Сбор социологических данных. Диалектика общего, особенного и единичного. Качественные и количественные методы социологических исследований. Обработка полученных данных. Анализ социальной действительности. Механизм адаптации людей к социальным изменениям.

реферат [26,8 K], добавлен 27.01.2013

Другие документы, подобные "Множественное заполнение пропусков как метод борьбы с пропущенными данными"

весь список подобных работ

скачать работу можно здесь

сколько стоит заказать работу?

Работы в архивах красиво оформлены согласно требованиям ВУЗов и содержат рисунки, диаграммы, формулы и т.д.
PPT, PPTX и PDF-файлы представлены только в архивах.
Рекомендуем скачать работу.

Множественное заполнение пропусков как метод борьбы с пропущенными данными

Отправить свою хорошую работу в базу знаний просто. Используйте форму, расположенную ниже

Теперь обратимся к подробному описанию реализации каждого этапа эксперимента.

Отбор переменных для сравнительного анализа эффективности подходов к агрегированию результатов множественного заполнения пропусков

Переменные, которые использовались нами для демонстрации рассматриваемых методов анализа данных:

1. Описательная статистика: по одной переменной, измеряемой в номинальной, порядковой и интервальной шкале.

2. Поиск связи между признаками:

· две номинальные переменные, между которыми существует немонотонная статистическая связь, и две номинальные переменные, между которыми немонотонной связи нет;

Таблица 1. Переменные, отобранные для эксперимента

Формирование эталонного массива

Select if (not missing(Var1) … and not missing(Var13)

Execute.,

где Var1 … Var13 - оставленные в массиве переменные.

Фиксация эталонных результатов анализа данных

Результаты вычисления эталонных параметров приведены в Приложении 1.

Внесение в массив искусственных пропусков

В силу ограниченности временных ресурсов в данном эксперименте не моделируется случай частично случайных пропусков.

Полностью случайные пропуски вносились в эталонный массив следующим образом:

1. Эталонный массив был перенесен в приложение Excel и каждому наблюдению был присвоен идентификационный номер.

По итогам данного этапа нами были поучены три массива данных с 10, 30 и 50% полностью случайных пропусков.

Заполнение пропусков в экспериментальных массивах

Анализ данных на отдельных массивах с заполненными пропусками и агрегирование с применением правила Рубина

1. Для рассчета показателя:

2: Для оценки агрегированной стандартной ошибки - внутригрупповая дисперсия:

и межгрупповая дисперсия:

,

при помощи которых вычислялась общая дисперсия:

.

3. Для проверки гипотез - критическое значение t-статистики со степенями свободы, рассчитанными по формуле:

,

И t-эмпирическим, равным .

Результаты расчета агрегированных при помощи правила Рубина результатов анализа данных приведены в Приложении 2.

Агрегирование при помощи усреднения пропущенных значений и анализ данных на усредненных массивах

На этом этапе используются 15 массивов, полученные на шаге 5 в результате множественного заполнения пропусков в трех массивах разными долями пропущенных значений.

Для пяти массивов, содержащих по 10% заполненных данных, мы производим усреднение заполненных значений по следующей схеме:

· подставленные значения в переменных, измеренных по номинальной шкале, «усредняются» при помощи моды:

· подставленные значения в переменных, измеренных по порядковой шкале, «усредняются» при помощи медианы;

· подставленные значения в переменных, измеренных по интервальной шкале, усредняются при помощи среднего арифметического.

Сравнение результатов анализа данных с применением разных подходов к агрегированию результатов множественного заполнения пропусков с эталонными

,

где

xe - нижняя граница эталонного доверительного интервала

xn - нижняя граница доверительного интервала, полученная после заполнения пропусков

ye - верхняя граница эталонного доверительного интервала

yn - верхняя граница доверительного интервала, полученная после заполнения пропусков.

Глава 3. Сравнительный анализ подходов к агрегированию результатов множественного заполнения пропусков

Описательная статистика

Таким образом, при любом количестве пропусков в массиве для описания номинальной переменной более эффективным подходом оказывается применение правила Рубина.

Таблица 9. Сравнение эффективности правила Рубина и усреднения подставленных значений для оценки среднего и дисперсии количества лет очного образования

Для вычисления среднего и дисперсии интервальной переменной результаты моделирования демонстрируют следующие тенденции:

Перейдем к сравнению результатов применительно к поиску связи между порядковыми признаками с использованием рангового коэффициента корреляции Спирмена.

Далее рассмотрим результаты, полученные нами при моделировании множественной линейной регрессии.

Множественная линейная регрессия

· В случае, если в массиве присутствует небольшое число пропусков, мы можем наблюдать следующие тенденции:

· для всех четырех коэффициентов регрессии при значимых и незначимых предикторах более эффективным оказывалось применение правила Рубина.

Уровень счастья

Уровень счастья

Уровень счастья

Подобные документы

Select if (not missing(Var₁) … and not missing(Var₁₃)

x_e - нижняя граница эталонного доверительного интервала

x_n - нижняя граница доверительного интервала, полученная после заполнения пропусков

y_e- верхняя граница эталонного доверительного интервала

y_n - верхняя граница доверительного интервала, полученная после заполнения пропусков.