Главная База знаний "Allbest" Социология и обществознание Множественное заполнение пропусков как метод борьбы с пропущенными данными

Множественное заполнение пропусков как метод борьбы с пропущенными данными

Проблема пропусков в социологических данных. Методика статистического эксперимента для сравнения подходов к агрегированию результатов множественного заполнения пропусков. Характеристика сравнительного анализа подходов к агрегированию результатов.

Рубрика	Социология и обществознание
Вид	дипломная работа
Язык	русский
Дата добавления	31.10.2016
Размер файла	361,9 K

посмотреть текст работы

скачать работу можно здесь

полная информация о работе

весь список подобных работ

Отправить свою хорошую работу в базу знаний просто. Используйте форму, расположенную ниже

Студенты, аспиранты, молодые ученые, использующие базу знаний в своей учебе и работе, будут вам очень благодарны.

Страница:

Таким образом, применительно к множественной линейной регрессии мы можем отметить следующие тенденции:

· эффективный подход к вычислению константы изменялся в зависимости от количества извлекаемых бутстрепом выборок на массивах с 10% и 30% подставленных значений, однако для 50% пропусков более эффективным подходом оказалось применение правила Рубина при извлечении любого количества выборок;

· для вычисления регрессионных коэффициентов для всех четырех предикторов на массивах с 10% подставленных значений более эффективным подходом к агрегированию оказалось правило Рубина;

· для вычисления одного значимого коэффициента регрессии при предикторе, измеренной в 11-балльной шкале и двух незначимых при истинном и 11-балльном предикторах на массивах с 30% и 50% подставленных значений более эффективным подходом к агрегированию оказалось также правило Рубина;

· усреднение подставленных значений показало большую эффективность только в одном случае: для вычисления коэффициента регрессии при значимом предикторе, измеренном в «истинной» интервальной шкале.

Описав полученные нами результаты анализа данных, мы можем перейти к решению последней задачи данного исследования, а именно составлению рекомендаций по выбору подхода к агрегированию в зависимости от исследовательской ситуации.

Обобщим результаты проведенного нами эксперимента в виде набора рекомендаций по выбору подхода к агрегированию результатов множественного заполнения пропусков в рассмотренных нами исследовательских ситуаций.

1. Описательная статистика.

· Для описания номинальной переменной при помощи долей значений признака в ситуации большого (до 50%), маленького (до 10%) и умеренного (30%) количества пропусков в массиве для агрегирования результатов множественного заполнения пропусков предпочтительно выбирать правило Рубина.

· Для описания порядковой переменной при помощи долей значений признака для агрегирования результатов множественного заполнения пропусков предпочтительно выбирать:

a) в ситуации маленького (10%) количества пропусков в массиве - правило Рубина;

b) в ситуации умеренного (30%) количества пропусков в массиве - усреднение подставленных значений;

c) в ситуации большого (50%) количества пропусков в массиве оба подхода имеют одинаковую эффективность.

· Для описания интервальной переменной при помощи среднего арифметического и дисперсии для агрегирования результатов множественного заполнения пропусков предпочтительно выбирать:

a) в ситуации небольшого (10%) количества пропусков в массиве - усреднение подставленных значений;

b) в ситуации умеренного (30%) количества пропусков в массиве - правило Рубина для среднего арифметического и усреднение подставленных значений для дисперсии;

c) в ситуации большого (50%) количества пропусков в массиве - усреднение подставленных значений для среднего арифметического и правило Рубина для дисперсии.

2. Поиск связи между двумя признаками.

· для поиска немонотонной связи между двумя номинальными переменными с использованием коэффициента V Крамера для агрегирования результатов множественного заполнения пропусков предпочтительно выбирать:

a) в случае предположения о наличии немонотонной связи между признаками и любого (10-50%) количества пропусков в массиве - усреднение подставленных значений;

b) в случае предположения об отсутствии немонотонной связи между признаками и большого (50%) количества пропусков в массиве, а также в случае предположения об отсутствии немонотонной связи между признаками и небольшого (10%) или умеренного (30%) количества пропусков в массиве оба подхода одинаково эффективны.

· для поиска монотонной связи между двумя порядковыми переменными с использованием коэффициента Спирмена для агрегирования результатов множественного заполнения пропусков предпочтительно выбирать:

a) в случае предположения о наличии или отсутствии монотонной связи между двумя признаками и небольшого (10%) или большого (50%) количества пропусков в массиве - усреднение подставленных значений;

b) в случае предположения о наличии или отсутствии монотонной связи между двумя признаками и умеренного (30%) количества пропусков в массиве - правило Рубина.

· для поиска линейной связи между двумя интервальными переменными с использованием коэффициента Пирсона для агрегирования результатов множественного заполнения пропусков в случае предположения о наличии или отсутствии линейной связи и любого (10-50%) количества пропусков в массиве предпочтительно выбирать усреднение подставленных значений.

3. Множественная линейная регрессия.

· Для оценки константы и предположениях о значимости или незначимости регрессионных коэффициентов во множественной линейной регрессии в ситуации любого (10-50%) количества пропусков в массиве

Заключение

Пропущенные значения являются проблемой, с которой приходится сталкиваться в любом социологическом исследовании и приводят к ряду затруднений, таких как невозможность применения изначального дизайна исследования, потеря данных и смещение результатов. На сегодняшний день разработано много методов борьбы с пропусками, которые не удалось устранить на этапе сбора информации, но возможно скорректировать уже на этапе анализа данных (такие пропуски называют игнорируемыми). Одним из наиболее современных и активно развивающихся методов борьбы с пропусками после завершения полевого этапа является разработанное Дональдом Рубином множественное заполнение пропусков, которое, однако, является методом достаточно долгим и трудоемким. По этой причине одним из направлений развития метода является его оптимизация, то есть поиск способов упрощения работы с алгоритмом множественного заполнения пропусков без потери эффективности, отличающей его от прочих методов борьбы с пропущенными данными. В качестве такого способа оптимизации в противовес классическому алгоритму мы предложили «усреднение» подставленных значений, то есть замена пропусков в массиве соответствующей мерой центральной тенденции, рассчитанной на наборе подставленных в ходе множественного заполнения пропусков значений.

В данном исследовании нами был проведен сравнительный анализ эффективности применения правила Рубина и усреднения подставленных значений как подходов к агрегированию результатов множественного заполнения пропусков в зависимости от исследовательской ситуации. При помощи реализованного нами статистического эксперимента мы оценили эффективность подходов применительно к исследовательским ситуациям, характеризующимся разными долями пропусков в массиве, разными шкалами переменных, и тремя распространенными в социологических исследованиях методами анализа данных - описательная статистика, поиск связи между двумя признаками и множественная линейная регрессия. На основании сравнения оценок эффективности подходов мы составили следующие рекомендации по выбору подхода к агрегированию результатов множественного заполнения пропусков для перечисленных исследовательских ситуаций:

1. Описательная статистика: для описания номинальных переменных следует выбирать правило Рубина, а для описания порядковых и интервальных выбор подхода зависит от количества пропусков в массиве.

2. Поиск связи между признаками: для поиска связи между номинальными признаками с помощью коэффициента V Крамера и между порядковыми признаками с помощью коэффициента Спирмена выбор подхода также зависит от доли пропусков в массиве, а для поиска связи между интервальными переменными при помощи коэффициента Пирсона при любом количестве пропусков в массиве предпочтительно выбирать усреднение подставленных значений.

3. Множественная линейная регрессия: вычисление как константы, так и регрессионных коэффициентов при значимых и незначимых предикторах предпочтительно производить с применением правила Рубина для агрегирования результатов заполнения.

Сфера применения результатов данного исследования ограничивается только случаями игнорируемых (случайных и полностью случайных) пропусков, поскольку только игнорируемые пропуски поддаются корректировке на этапе анализа данных, когда вернуться к этапу сбора информации уже невозможно. Кроме того, в данном исследовании был рассмотрен только очень узкий круг исследовательских ситуаций: мы рассмотрели всего три инструмента анализа данных из очень широкого круга статистических методов, применяемых в социологии. В связи с этим делать широкие теоретические или методические обобщения на основании данного исследования нельзя, однако одним из наиболее общих результатов исследования стало экспериментальное доказательство того, что для определенных исследовательских ситуаций более простой в осуществлении подход к агрегированию результатов множественного заполнения пропусков - усреднение подставленных значений при помощи соответствующей меры центральной тенденции для шкалы переменной, содержащей пропуски -оказывается эффективнее классического теоретически обоснованного правила Рубина.

Таким образом, данное исследование проложило новое направление для оптимизации применения множественного заполнения пропусков в зависимости от исследовательской ситуации. Дальнейшие исследования в данной области могут касаться следующих проблем:

· теоретическое обоснование адекватности применения усреднения подставленных значений для агрегирования результатов множественного заполнения пропусков;

· расширение круга экспериментально обоснованных рекомендаций по выбору подхода к агрегированию результатов множественного заполнения пропусков в различных исследовательских ситуациях;

· теоретическое обоснование эффективности усреднения пропущенных значений или применения правила Рубина в конкретных исследовательских ситуациях.

Список использованной литературы

1. Дударев В.А. Подход к заполнению пропусков в обучающих выборках для компьютерного конструирования неорганических соединений // Вестник МИТХТ. 2014. Т. 9. № 1. С. 73-75.

2. Зангиева И.К. Проблема пропусков в социологических данных: смысл и подходы к решению // Социология: Методология, методы, математическое моделирование. 2011. Т. 33. С. 28-56.

3. Зангиева И.К., Толстова Ю.Н. Понятие случайности и проблема пропусков данных в социологии // В кн.: Математическое моделирование социальных процессов / Науч. ред.: А. Михайлов. Вып. 14. М. : Социологический факультет МГУ, 2012. Гл. 14. С. 146-165.

4. Зангиева И.К., Тимонина Е.С. Сравнение эффективности алгоритмов заполнения пропусков в данных в зависимости от используемого метода анализа // Мониторинг общественного мнения, №1 (119). 2014. сс. 41-55.

5. Кутлалиев А. Х. Метод множественного восстановления данных // В кн.: Социологические методы в современной исследовательской практике: Сборник статей, посвященный памяти первого декана факультета социологии НИУ ВШЭ А.О. Крыштановского [Электронный ресурс] / Отв. ред.: О. А. Оберемко. М.: Издательский дом НИУ ВШЭ, 2011. С. 201-208.

6. Литтл Р., Рубин Д. Статистический анализ данных с пропусками / пер. с англ. - М.: Финансы и статистика, 1990. - 336 с.

7. Толстова Ю.Н. Математико-статистические модели в социологии (математическая статистика для социологов): учебное пособие. М.: Изд. дом ГУ-ВШЭ, 2008.

8. Шитиков В.К., Розенберг Г.С. Рандомизация и бутстреп: статистический анализ в биологии и экологии с использованием R. Тольятти: Кассандра, 2013. - 314 с.

9. Allison P. Multiple imputation for missing data: A cautionary tale // Sociological Methods and Research. 2000. No. 28. 301-309.

10. Carpenter J., Kenward M. Multiple imputation: current perspectives // Statistical Methods in Medical Research. 2007. Vol. 16, no. 3. 199-218.

11. Brand J.P.L. Development, Implementation and Evaluation of Multiple Imputation Strategies for the Statistical Analysis of Incomplete Data Sets. Thesis Erasmus University Rotterdam, 1999.

12. Glynn R., Laird N., Rubin D. Multiple imputation in Mixture models for Nonignorable Nonresponse with Follow-ups // Journal of the American Statistical Association. Vol. 88, No. 423. 1993. 984-993.

13. Honaker J., Joseph A., King G., Scheve K. Analyzing Incomplete Political Science Data: An Alternative Algorithm for Multiple Imputation // The American Political Science Review. 2001. Vol. 95, No. 1. 49-69.

14. Horton N., Lipsitz S. Multiple Imputation in Practice: Comparison of Software Packages for Regression Models With Missing Variables // The American Statistician. 2001. Vol. 55, No. 3. 244-254.

15. Hutchenson G., Pampaka M., Williams J. Handling missing data: analysis of a challenging data set using multiple imputation // International Journal of Recearch & Method in Education. 2016. Vol. 29, No. 1. 19-37.

16. IBM SPSS Missing Values 22 [on-line]. URL: http://www.sussex.ac.uk/its/pdfs/SPSS_Missing_Values_22.pdf (accessed: May 15, 2016).

17. Lee K., Simpson J. Introduction to multiple imputation for dealing with missing data // Respirology. 2014. No 19. 162-167.

18. Mitra R., Reiter J.P. A comparison of two methods of estimating propensity scores after multiple imputation // Statistical Methods in Medical Research. 2016. Vol. 25, Issue 1. 188-204.

19. Rubin D. Multiple Imputation for Nonresponse in Surveys. John Wiley & Sons, 2009.

20. Rubin D. Multiple imputation in sample surveys - a phenomenological Bayesian approach to nonresponse / ASA Proc Section on Survey Res Methods. 1978. 20-34.

21. SOLAS Version 4.0: manual [on-line]. URL: http://www.statsols.com/wp-content/uploads/2013/12/Solas-4-Manual1.pdf (accessed: April 27, 2016).

22. Vink G., van Buuren S. Pooling multiple imputations when the sample happens to be the population [online source] // Cornell University Library. 2014. URL: http://arxiv.org/abs/1409.8542 (accessed: May 3, 2016).

23. Zhang P. Multiple imputation: theory and method // International Statistical Review. 2003. Vol. 71, no. 3. 581-592.

Приложение

Таблица 1. Эталонные параметры бутстрепа для долей людей, проживающих в населенных пунктах разного типа

Значение переменной	Число выборок	Выборочная доля, %	Стд. Ошибка, %	Нижняя граница ДИ, %	Верхняя граница ДИ, %
Мегаполис	1000	42,3	2,1	38,3	46,5
	10 000	42,3	2,0	38,3	46,2
	50 000	42,3	2,0	38,3	46,2
Пригород мегаполиса	1000	3,4	0,7	2,0	4,9
	10 000	3,4	0,7	2,1	4,9
	50 000	3,4	0,7	2,1	4,9
Небольшой город	1000	34,1	1,9	30,3	37,7
	10 000	34,1	1,9	30,3	37,8
	50 000	34,1	1,9	30,3	37,8
Деревня	1000	20,2	1,6	17,1	23,5
	10 000	20,2	1,6	17,1	23,5
	50 000	20,2	1,6	17,1	23,5

Таблица 2. Эталонные параметры бутстрепа для долей людей с разным уровнем заинтересованности в политике

Значение переменной	Число выборок	Выборочная доля, %	Стд. Ошибка, %	Нижняя граница ДИ, %	Верхняя граница ДИ, %
Очень заинтересован	1000	16,8	1,5	14,0	19,7
	10 000	16,8	1,5	13,9	19,7
	50 000	16,8	1,5	13,9	19,7
Довольно заинтересован	1000	42,6	2,0	38,5	46,3
	10 000	42,6	2,0	38,7	46,5
	50 000	42,6	2,0	38,7	46,5
Едва ли заинтересован	1000	30,7	1,9	27,1	34,3
	10 000	30,7	1,9	27,1	34,4
	50 000	30,7	1,9	27,1	34,4
Совершенно не заинтересован	1000	10,0	1,2	7,7	12,6
	10 000	10,0	1,2	7,7	12,4
	50 000	10,0	1,2	7,7	12,4

Таблица 3. Параметры бутстрепа для среднего количества лет очного образования и дисперсии на эталонном массиве

	Число выборок	Выборочное среднее	Стд. Ошибка	Нижняя граница ДИ	Верхняя граница ДИ
Среднее	1000	13,13	0,12	12,89	13,36
	10 000	13,13	0,12	12,90	13,36
	50 000	13,13	0,12	12,90	13,36
Дисперсия	1000	8,389	0,591	7,306	9,581
	10 000	8,389	0,587	7,286	9,580
	50 000	8,389	0,588	7,286	9,592

Таблица 4. Параметры бутстрепа для коэффициента V Крамера на эталонном массиве в ситуации отсутствия связи, переменные «пол» и «тип населенного пункта»

Число выборок	Выборочное значение	Значимость	Стд. Ошибка	Нижняя граница ДИ	Верхняя граница ДИ
1000	0,074	0,343	0,035	0,033	0,166
10 000	0,074	0,343	0,035	0,031	0,167
50 000	0,074	0,343	0,035	0,031	0,167

Таблица 5. Параметры бутстрепа для коэффициента V Крамера на эталонном массиве в ситуации наличия связи, переменные «пол» и «трудовые отношения»

Число выборок	Выборочное значение	Значимость	Стд. Ошибка	Нижняя граница ДИ	Верхняя граница ДИ
1000	0,141	0,000	0,04	0,056	0,215
10 000	0,141	0,000	0,04	0,060	0,216
50 000	0,141	0,000	0,04	0,061	0,216

Таблица 6.Параметры бутстрепа для коэффициента ранговой корреляции Спирмена на эталонном массиве в ситуации наличия связи, переменные «интерес к политике» и «продолжительность просмотра новостей»

Число выборок	Выборочное значение	Значимость	Стд. Ошибка	Нижняя граница ДИ	Верхняя граница ДИ
1000	-0,006	0,890	0,041	-0,088	0,072
10 000	-0,006	0,890	0,039	-0,082	0,071
50 000	-0,006	0,890	0,39	-0,083	0,072

Таблица 7. Параметры бутстрепа для коэффициента ранговой корреляции Спирмена на эталонном массиве в ситуации отсутствия связи, переменные «близость к партии» и «субъективная оценка здоровья»

Число выборок	Выборочное значение	Значимость	Стд. Ошибка	Нижняя граница ДИ	Верхняя граница ДИ
1000	-0,392	0,000	0,035	-0,458	-0,321
10 000	-0,392	0,000	0,036	-0,460	-0,320
50 000	-0,392	0,000	0,036	-0,460	-0,320

Таблица 8. Параметры бутстрепа для коэффициента корреляции Пирсона на эталонном массиве в ситуации отсутствия связи, переменные «количество лет очного образования» и «положение на шкале левое крыло-правое крыло»

Число выборок	Выборочное значение	Значимость	Стд. Ошибка	Нижняя граница ДИ	Верхняя граница ДИ
1000	-0,076	0,060	0,041	-0,160	-0,001
10 000	-0,076	0,060	0,041	-0,157	0,005
50 000	-0,076	0,060	0,041	-0,156	0,005

Таблица 9. Параметры бутстрепа для коэффициента корреляции Пирсона на эталонном массиве в ситуации наличия связи, переменные «уровень счастья» и «положение в обществе»

Число выборок	Выборочное значение	Значимость	Стд. Ошибка	Нижняя граница ДИ	Верхняя граница ДИ
1000	0,346	0,000	0,036	0,276	0,417
10 000	0,346	0,000	0,036	0,273	0,415
50 000	0,346	0,000	0,036	0,273	0,415

Таблица 11. Параметры бутстрепа для регрессионных коэффициентов на эталонном массиве, зависимая переменная - «положение в обществе»

Переменная	Число выборок	Значение B	Значимость	Стд. Ошибка	Нижняя граница ДИ	Верхняя граница ДИ
Константа	1000	3,278	0,001	0,460	2,434	4,197
	10 000	3,278	0,000	0,457	2,377	4,167
	50 000	3,278	0,000	0,457	2,379	4,164
Количество лет очного образования	1000	0,015	0,488	0,023	-0,028	0,060
	10 000	0,015	0,488	0,022	-0,028	0,059
	50 000	0,015	0,493	0,022	-0,028	0,059
Удовлетворенность системой образования	1000	0,021	0,416	0,27	-0,034	0,072
	10 000	0,021	0,410	0,26	-0,029	0,073
	50 000	0,021	0,408	0,26	-0,030	0,073
Уровень счастья	100	0,269	0,001	0,032	0,205	0,332
	10 000	0,269	0,000	0,032	0,206	0,333
	50 000	0,269	0,000	0,032	0,206	0,333
Возраст	1000	-0,013	0,002	0,004	-0,021	-0,005
	10 000	-0,013	0,001	0,004	-0,021	-0,005
	50 000	-0,013	0,001	0,004	-0,021	-0,005

Результаты анализа данных, агрегированные при помощи правила Рубина

Таблица 1. Параметры бутстрепа для долей людей, проживающих в населенных пунктах разного типа, агрегированные при помощи правила Рубина

Значение переменной	Доля пропущенных значений	Число выборок	Выборочная доля, %	Стд. Ошибка, %	Нижняя граница ДИ, %	Верхняя граница ДИ, %
Мегаполис	10%	1000	40,8	2	36,9	44,7
		10 000	40,8	2	36,9	44,7
		50 000	40,8	2	36,9	44,7
	30%	1000	39,9	2	36	43,7
		10 000	39,9	2	36	43,7
		50 000	39,9	2	36	43,7
	50%	1000	35,4	1,9	31,6	39,2
		10 000	35,4	1,9	31,6	39,2
		50 000	35,4	1,9	31,6	39,2
Пригород мегаполиса	10%	1000	6,4	1	4,5	8,3
		10 000	6,4	1	4,5	8,3
		50 000	6,4	1	4,5	8,3
	30%	1000	11,7	1,3	9,1	14,3
		10 000	11,7	1,3	9,1	14,3
		50 000	11,7	1,3	9,1	14,3
	50%	1000	17,1	1,5	14,1	20,1
		10 000	17,1	1,5	14,1	20,1
		50 000	17,1	1,5	14,1	20,1
Небольшой город	10%	1000	33	1,9	29,3	36,7
		10 000	33	1,9	29,3	36,7
		50 000	33	1,9	29,3	36,7
	30%	1000	30,3	1,9	26,7	34
		10 000	30,3	1,9	26,7	34
		50 000	30,3	1,9	26,7	34
	50%	1000	29,5	1,8	25,9	33,2
		10 000	29,5	1,8	25,9	33,2
		50 000	29,5	1,8	25,9	33,2
Деревня	10%	1000	16,3	1,5	13,2	19,3
		10 000	19,8	1,6	16,6	23
		50 000	19,8	1,6	16,6	23
	30%	1000	18,1	1,6	15,1	21,2
		10 000	18,1	1,6	15,1	21,2
		50 000	18,1	1,6	15,1	21,2
	50%	1000	17,9	1,5	14,8	21
		10 000	17,9	1,5	14,8	21
		50 000	17,9	1,5	14,8	21

Таблица 2. Параметры бутстрепа для долей людей, в разной степени заинтересованных в политике, агрегированные при помощи правила Рубина

Значение переменной	Доля пропущенных значений	Число выборок	Выборочная доля, %	Стд. ошибка, %	Нижняя граница ДИ, %	Верхняя граница ДИ, %
Очень заинтересован	10%	1000	17,5	1,5	14,5	20,6
		10 000	17,5	1,5	14,5	20,6
		50 000	17,5	1,5	14,5	20,6
	30%	1000	16,9	1,5	14	19,9
		10 000	16,9	1,5	14	19,9
		50 000	16,9	1,5	14	19,9
	50%	1000	19,1	1,6	16	22,2
		10 000	19,1	1,6	16	22,2
		50 000	19,1	1,6	16	22,2
Довольно заинтересован	10%	1000	42,4	2	38,5	46,3
		10 000	42,6	2	38,7	46,5
		50 000	42,6	2	38,7	46,5
	30%	1000	39,5	2	35,7	43,4
		10 000	39,5	2	35,7	43,4
		50 000	39,5	2	35,7	43,4
	50%	1000	38,7	2	34,8	42,5
		10 000	38,7	2	34,8	42,5
		50 000	38,7	2	34,8	42,5
Едва ли заинтересован	10%	1000	29,8	1,8	26,2	33,4
		10 000	29,8	1,8	26,2	33,4
		50 000	29,8	1,8	26,2	33,4
	30%	1000	27,8	1,8	24,3	31,4
		10 000	27,8	1,8	24,3	31,4
		50 000	27,8	1,8	24,3	31,4
	50%	1000	25,9	1,8	22,4	29,3
		10 000	25,9	1,8	22,4	29,3
		50 000	25,9	1,8	22,4	29,3
Совершенно не заинтересован	10%	1000	10,3	1,2	7,9	12,7
		10 000	10,3	1,2	7,9	12,7
		50 000	10,3	1,2	7,9	12,7
	30%	1000	15,7	1,5	12,8	18,6
		10 000	15,7	1,5	12,8	18,6
		50 000	15,7	1,5	12,8	18,6
	50%	1000	16,4	1,5	13,5	19,3
		10 000	16,4	1,5	13,5	19,3
		50 000	16,4	1,5	13,5	19,3

Таблица 3. Параметры бутстрепа для среднего и дисперсии количества лет очного образования, агрегированные при помощи правила Рубина

Доля пропусков	Показатель	Число выборок	Выборочное среднее	Стд. Ошибка	Нижняя граница ДИ	Верхняя граница ДИ
10%	Среднее	1000	13,07	0,01	13,04	13,10
		10 000	13,07	0,01	13,04	13,10
		50 000	13,07	0,01	13,04	13,10
	Дисперсия	1000	8,61	0,03	8,55	8,67
		10 000	8,61	0,03	8,55	8,67
		50 000	8,61	0,03	8,55	8,67
30%	Среднее	1000	13,06	0,01	13,03	13,09
		10 000	13,06	0,01	13,03	13,09
		50 000	13,06	0,01	13,03	13,09
	Дисперсия	1000	0,08	0,03	8,02	8,14
		10 000	0,08	0,03	8,02	8,14
		50 000	0,08	0,03	8,02	8,14
50%	Среднее	1000	13,05	0,01	13,02	13,08
		10 000	13,05	0,01	13,02	13,08
		50 000	13,05	0,01	13,02	13,08
	Дисперсия	1000	8,85	0,03	8,78	8,92
		10 000	8,85	0,03	8,78	8,92
		50 000	8,85	0,03	8,78	8,92

Таблица 4. Параметры бутстрепа для V Крамера, агрегированные при помощи правила Рубина в ситуации отсутствия связи, переменные «пол» и «тип населенного пункта»

Доля пропусков	Число выборок	Выборочное значение	Стд. Ошибка	Низ ДИ	Верх ДИ
10%	1000	0,08	0,01	0,07	0,1
	10 000	0,08	0,01	0,07	0,1
	50 000	0,08	0,01	0,07	0,1
30%	1000	0,09	0,01	0,07	0,1
	10 000	0,09	0,01	0,07	0,1
	50 000	0,09	0,01	0,07	0,1
50%	1000	0,12	0,01	0,1	0,13
	10 000	0,12	0,01	0,1	0,13
	50 000	0,12	0,01	0,1	0,13

Таблица 5. Параметры бутстрепа для V Крамера, агрегированные при помощи правила Рубина в ситуации наличия связи, переменные «пол» и «трудовые отношения»

Доля пропусков	Число выборок	Выборочное значение	Стд. Ошибка	Низ ДИ	Верх ДИ
10%	1000	0,16	0,01	0,14	0,18
	10 000	0,16	0,01	0,14	0,18
	50 000	0,16	0,01	0,14	0,18
30%	1000	0,63	0,02	0,59	0,67
	10 000	0,63	0,02	0,59	0,67
	50 000	0,63	0,02	0,59	0,67
50%	1000	0,07	0,01	0,05	0,09
	10 000	0,07	0,01	0,05	0,09
	50 000	0,07	0,01	0,05	0,09

Таблица 17. Параметры бутстрепа для коэффициента Спирмена агрегированные при помощи правила Рубина в ситуации отсутствия связи, переменные «близость к партии» и «субъективная оценка здоровья»

Доля пропусков	Число выборок	Выборочное значение	Стд. Ошибка	Низ ДИ	Верх ДИ
10%	1000	-0,01	0,01	-0,02	0,01
	10 000	-0,01	0,01	-0,02	0,01
	50 000	-0,01	0,01	-0,02	0,01
30%	1000	-0,06	0,01	-0,08	0,04
	10 000	-0,06	0,01	-0,08	0,04
	50 000	-0,06	0,01	-0,08	0,04
50%	1000	-0,04	0,01	-0,05	-0,02
	10 000	-0,04	0,01	-0,05	-0,02
	50 000	-0,04	0,01	-0,05	-0,02

Таблица 18. Параметры бутстрепа для коэффициента Спирмена, агрегированные при помощи правила Рубина в ситуации наличия связи, переменные «интерес к политике» и «продолжительность просмотра новостей»

Доля пропусков	Число выборок	Выборочное значение	Стд. Ошибка	Низ ДИ	Верх ДИ
10%	1000	-0,33	0,01	-0,35	-0,31
	10 000	-0,33	0,01	-0,35	-0,31
	50 000	-0,33	0,01	-0,35	-0,31
30%	1000	-0,16	0,01	-0,18	-0,14
	10 000	-0,16	0,01	-0,18	-0,14
	50 000	-0,16	0,01	-0,18	-0,14
50%	1000	-0,04	0,01	-0,05	-0,02
	10 000	-0,04	0,01	-0,05	-0,02
	50 000	-0,04	0,01	-0,05	-0,02

Таблица 19. Параметры бутстрепа для коэффициента Пирсона, агрегированные при помощи правила Рубина в ситуации отсутствия связи, переменные «количество лет очного образования» и «положение на шкале левое крыло-правое крыло»

Доля пропусков	Число выборок	Выборочное значение	Стд. Ошибка	Низ ДИ	Верх ДИ
10%	1000	-0,04	0,01	-0,05	-0,02
	10 000	-0,04	0,01	-0,05	-0,02
	50 000	-0,04	0,01	-0,05	-0,02
30%	1000	-0,05	0,01	-0,07	-0,03
	10 000	-0,05	0,01	-0,07	-0,03
	50 000	-0,05	0,01	-0,07	-0,03
50%	1000	-0,05	0,01	-0,06	-0,03
	10 000	-0,05	0,01	-0,06	-0,03
	50 000	-0,05	0,01	-0,06	-0,03

Таблица 20. Параметры бутстрепа для коэффициента Пирсона, агрегированные при помощи правила Рубина в ситуации наличия связи, переменные «уровень счастья» и «положение в обществе»

Доля пропусков	Число выборок	Выборочное значение	Стд. Ошибка	Низ ДИ	Верх ДИ
10%	1000	0,2	0,01	0,19	0,22
	10 000	0,2	0,01	0,19	0,22
	50 000	0,2	0,01	0,19	0,22
30%	1000	0,12	0,01	0,1	0,13
	10 000	0,12	0,01	0,1	0,13
	50 000	0,12	0,01	0,1	0,13
50%	1000	0,03	0,01	0,02	0,05
	10 000	0,03	0,01	0,02	0,05
	50 000	0,03	0,01	0,02	0,05

Таблица 14. Параметры бутстрепа для линейной регрессии с зависимой переменной «положение в обществе», агрегированные при помощи правила Рубина

Член регр. уравнения	Доля пропущенных значений	Число выборок	Точечная оценка корр. коэффициента	Стд. Ошибка	Нижняя граница ДИ	Верхняя граница ДИ
Константа	10%	1000	4,05	0,03	4,00	4,11
		10 000	4,05	0,04	3,98	4,13
		50 000	4,05	0,04	3,98	4,13
	30%	1000	5,76	0,07	5,54	5,8
		10 000	5,67	0,07	5,54	5,8
		50 000	5,67	0,07	5,54	5,8
	50%	1000	4,60	0,05	4,50	4,71
		10 000	4,60	0,05	4,50	4,71
		50 000	4,60	0,05	4,50	4,71
Длительность очного образования	10%	1000	0,03	0,01	0,02	0,04
		10 000	0,03	0,01	0,02	0,04
		50 000	0,03	0,01	0,02	0,04
	30%	1000	0	0,01	-0,01	0,02
		10 000	0	0,01	-0,01	0,02
		50 000	0	0,01	-0,01	0,02
	50%	1000	0,02	0,01	0,00	0,04
		10 000	0,02	0,01	0,00	0,04
		50 000	0,02	0,01	0,00	0,04
Удовлетворенность системой образования	10%	1000	0,04	0,01	0,02	0,05
		10 000	0,04	0,01	0,02	0,05
		50 000	0,04	0,01	0,02	0,05
	30%	1000	-0,03	0,01	-0,04	-0,01
		10 000	-0,03	0,01	-0,04	-0,01
		50 000	-0,03	0,01	-0,04	-0,01
	50%	1000	-0,04	0,01	-0,06	-0,03
		10 000	-0,04	0,01	-0,06	-0,03
		50 000	-0,04	0,01	-0,06	-0,03
Уровень счастья	10%	1000	0,17	0,01	0,16	0,19
		10 000	0,17	0,01	0,16	0,19
		50 000	0,17	0,01	0,16	0,19
	30%	1000	0,11	0,01	0,09	0,12
		10 000	0,11	0,01	0,09	0,12
		50 000	0,11	0,01	0,09	0,12
	50%	1000	0,04	0,01	0,03	0,06
		10 000	0,04	0,01	0,03	0,06
		50 000	0,04	0,01	0,03	0,06
Член регр. уравнения	Доля пропущенных значений	Число выборок	Точечная оценка корр. коэффициента	Стд. Ошибка	Нижняя граница ДИ	Верхняя граница ДИ
Возраст	10%	1000	-0,02	0,00	-0,02	-0,01
		10 000	-0,02	0,00	-0,02	-0,01
		50 000	-0,02	0,00	-0,02	-0,01
	30%	1000	-0,02	0,00	-0,03	-0,01
		10 000	-0,02	0,00	-0,03	-0,01
		50 000	-0,02	0,00	-0,03	-0,01
	50%	1000	0,00	0,00	0,00	0,01
		10 000	0,00	0,00	0,00	0,01
		50 000	0,00	0,00	0,00	0,01

Результаты анализа данных, агрегированные при помощи усреднения подставленных значений

Таблица 1. Параметры бутстрепа для долей людей, проживающих в населенных пунктах разного типа, агрегированные при помощи усреднения пропущенных значений

Значение переменной	Доля пропущенных значений	Число выборок	Выборочная доля, %	Стд. Ошибка, %	Нижняя граница ДИ, %	Верхняя граница ДИ, %
Мегаполис	10%	1000	41,6	2	37,8	45,7
		10 000	41,6	2	37,7	45,5
		50 000	41,6	2	37,7	45,5
	30%	1000	39,5	2	35,6	43,2
		10 000	39,5	2	35,7	43,4
		50 000	39,5	2	35,7	43,4
	50%	1000	35,9	1,9	32,1	39,5
		10 000	35,9	1,9	32,1	39,6
		50 000	35,9	1,9	32,1	39,6
Пригород мегаполиса	10%	1000	6,7	1	4,7	8,6
		10 000	6,7	1	4,7	8,6
		50 000	6,7	1	4,7	8,6
	30%	1000	13,9	1,4	11,3	16,6
		10 000	13,9	1,4	11,1	16,6
		50 000	13,9	1,4	11,3	16,6
	50%	1000	19,7	1,6	16,6	23
		10 000	19,7	1,6	16,6	23
		50 000	19,7	1,6	16,6	23
Небольшой город	10%	1000	32,1	1,9	28,5	35,9
		10 000	32,1	1,9	28,5	35,9
		50 000	32,1	1,9	28,5	35,9
	30%	1000	29,2	1,9	25,3	33,1
		10 000	29,2	1,8	25,6	32,8
		50 000	29,2	1,8	25,6	32,8
	50%	1000	27,6	1,8	24	31
		10 000	27,6	1,8	24	31,2
		50 000	27,6	1,8	24	31,2
Деревня	10%	1000	19,6	1,6	16,6	23
		10 000	19,6	1,6	16,5	22,8
		50 000	19,6	1,6	16,5	22,7
	30%	1000	17,5	1,5	14,5	20,6
		10 000	17,5	1,5	14,5	20,6
		50 000	17,5	1,5	14,5	20,6
	50%	1000	16,8	1,5	13,9	19,7
		10 000	16,8	1,5	13,9	19,7
		50 000	16,8	1,5	13,9	19,7

Таблица 2. Параметры бутстрепа для долей людей, в разной степени заинтересованных в политике, агрегированные при помощи усреднения пропущенных значений

Значение переменной	Доля пропущенных значений	Число выборок	Выборочная доля, %	Стд. Ошибка, %	Нижняя граница ДИ, %	Верхняя граница ДИ, %
Очень заинтересован	10%	1000	17,1	1,5	14,4	20,1
		10 000	17,1	1,5	14,2	20,2
		50 000	17,1	1,5	14,2	20,2
	30%	1000	15,7	1,5	12,7	18,8
		10 000	15,7	1,5	12,9	18,6
		50 000	15,7	1,5	12,9	18,6
	50%	1000	17,1	1,5	14,2	20,1
		10 000	17,1	1,5	14,2	20,1
		50 000	17,1	1,5	14,2	20,1
Довольно заинтересован	10%	1000	44	2	40,5	48
		10 000	44	2	40,1	48,1
		50 000	44	2	40,1	48,1
	30%	1000	44,9	2	40,8	48,6
		10 000	44,9	2	40,9	48,8
		50 000	44,9	2	40,9	48,8
	50%	1000	51,4	2	47	55,1
		10 000	51,4	2	47,5	55,5
		50 000	51,4	2	47,6	55,7
Едва ли заинтересован	10%	1000	29,4	1,8	25,9	32,8
		10 000	29,4	1,8	25,8	33
		50 000	29,4	1,8	25,8	33
	30%	1000	30,3	1,8	26,6	34,1
		10 000	30,3	1,9	26,8	34,1
		50 000	30,3	1,9	26,8	34
	50%	1000	25,4	1,8	22,2	29,2
		10 000	25,4	1,8	22	28,9
		50 000	25,4	1,8	22	28,9
Совершенно не заинтересован	10%	1000	9,5	1,2	7,2	11,7
		10 000	9,5	1,2	7,2	11,9
		50 000	9,5	1,2	7,2	11,9
	30%	1000	9,1	1,1	7	11,3
		10 000	9,1	1,2	6,9	11,4
		50 000	9,1	1,2	6,9	11,4
	50%	1000	6	1	4,2	8
		10 000	6	1	4,2	8
		50 000	6	1	4,2	8

Таблица 3. Параметры бутстрепа для среднего количества лет очного образования и дисперсии, агрегированные при помощи усреднения пропущенных значений

Доля пропущенных значений	Показатель	Число выборок	Выборочное среднее	Стд. Ошибка	Нижняя граница ДИ	Верхняя граница ДИ
10%	Среднее	1000	13,07	0,119	12,85	13,30
		10 000	13,07	0,113	12,85	13,29
		50 000	13,07	0,114	12,85	13,29
	Дисперсия	1000	8,077	0,589	6,966	9,293
		10 000	8,077	0,570	7,004	9,242
		50 000	8,077	0,571	7,009	9,245
30%	Среднее	1000	13,05	0,1	12,87	13,25
		10 000	13,05	0,1	12,86	13,25
		50 000	13,05	0,1	12,86	13,25
	Дисперсия	1000	6,150	0,399	5,327	6,920
		10 000	6,150	0,404	5,387	6,954
		50 000	6,150	0,407	5,367	6,966
50%	Среднее	1000	13,05	0,09	12,88	13,23
		10 000	13,05	0,09	12,88	13,23
		50 000	13,05	0,09	12,88	13,23
	Дисперсия	1000	4,894	0,329	4,276	5,546
		10 000	4,894	0,335	4,249	5,552
		50 000	4,894	0,334	4,258	5,568

Таблица 4. Параметры бутстрепа для V Крамера, агрегированные при помощи усреднения пропущенных значений в ситуации отсутствия связи, переменные «пол» и «тип населенного пункта»

Доля пропущенных значений	Число выборок	Выборочное значение	Стд. Ошибка	Нижняя граница ДИ	Верхняя граница ДИ
10%	1000	0,094	0,037	0,043	0,182
	10 000	0,094	0,037	0,044	0,186
	50 000	0,094	0,037	0,044	0,186
30%	1000	0,098	0,038	0,042	0,195
	10 000	0,098	0,038	0,044	0,193
	50 000	0,098	0,038	0,043	0,193
50%	1000	0,141	0,037	0,08	0,224
	10 000	0,141	0,037	0,079	0,226
	50 000	0,141	0,037	0,08	0,228

Таблица 5. Параметры бутстрепа для V Крамера, агрегированные при помощи усреднения пропущенных значений в ситуации отсутствия связи, переменные «пол» и «трудовые отношения»

Доля пропущенных значений	Число выборок	Выборочное значение	Стд. Ошибка	Нижняя граница ДИ	Верхняя граница ДИ
10%	1000	0,156	0,04	0,075	0,236
	10 000	0,156	0,04	0,074	0,230
	50 000	0,156	0,04	0,074	0,230
30%	1000	0,162	0,043	0,078	0,247
	10 000	0,162	0,043	0,077	0,243
	50 000	0,162	0,043	0,077	0,242
50%	1000	0,099	0,041	0,021	0,181
	10 000	0,099	0,041	0,020	0,180
	50 000	0,099	0,041	0,020	0,180

Таблица 6. Параметры бутстрепа для коэффициента Спирмена агрегированные при помощи усреднения пропущенных значений в ситуации отсутствия связи, переменные «близость к партии» и «субъективная оценка здоровья»

Доля пропусков	Число выборок	Выборочное значение	Стд. Ошибка	Низ ДИ	Верх ДИ
10%	1000	0,026	0,042	-0,062	0,105
	10 000	0,026	0,040	-0,054	0,105
	50 000	0,026	0,040	-0,051	0,107
30%	1000	-0,091	0,040	-0,168	0,01
	10 000	-0,091	0,039	-0,167	0,012
	50 000	-0,091	0,039	-0,167	0,012
50%	1000	-0,059	0,039	-0,138	0,016
	10 000	-0,059	0,039	-0,137	0,017
	50 000	-0,059	0,039	-0,137	0,017

Таблица 7. Параметры бутстрепа для коэффициента Спирмена, агрегированные при помощи усреднения пропущенных значений в ситуации наличия связи, переменные «интерес к политике» и «продолжительность просмотра новостей»

Доля пропусков	Число выборок	Выборочное значение	Стд. Ошибка	Низ ДИ	Верх ДИ
10%	1000	-0,346	0,038	-0,423	-0,270
	10 000	-0,346	0,038	-0,421	-0,269
	50 000	-0,346	0,038	-0,419	-0,269
30%	1000	-0,141	0,043	-0,224	-0,056
	10 000	-0,141	0,043	-0,223	-0,056
	50 000	-0,141	0,043	-0,223	-0,056
50%	1000	-0,151	0,040	-0,229	-0,069
	10 000	-0,151	0,039	-0,228	-0,074
	50 000	-0,151	0,039	-0,228	-0,075

Таблица 8. Параметры бутстрепа для коэффициента Пирсона, агрегированные при помощи усреднения пропущенных значений в ситуации отсутствия связи, переменные «количество лет очного образования» и «положение на шкале левое крыло-правое крыло»

Доля пропусков	Число выборок	Выборочное значение	Стд. Ошибка	Низ ДИ	Верх ДИ
10%	1000	-0,047	0,041	-0,128	-0,030
	10 000	-0,047	0,040	-0,125	-0,032
	50 000	-0,047	0,040	-0,125	-0,031
30%	1000	-0,084	0,039	-0,160	-0,005
	10 000	-0,084	0,039	-0,160	-0,007
	50 000	-0,084	0,039	-0,160	-0,007
50%	1000	-0,106	0,039	-0,181	-0,029
	10 000	-0,106	0,039	-0,182	-0,029
	50 000	-0,106	0,039	-0,182	-0,029

Таблица 9. Параметры бутстрепа для коэффициента Пирсона, агрегированные при помощи усреднения пропущенных значений в ситуации наличия связи, переменные «уровень счастья» и «положение в обществе»

Доля пропусков	Число выборок	Выборочное значение	Стд. Ошибка	Низ ДИ	Верх ДИ
10%	1000	0,244	0,037	0,175	0,318
	10 000	0,244	0,037	0,168	0,317
	50 000	0,244	0,037	0,167	0,317
30%	1000	0,166	0,039	0,090	0,239
	10 000	0,166	0,039	0,092	0,239
	50 000	0,166	0,039	0,092	0,239
50%	1000	0,110	0,036	0,036	0,178
	10 000	0,110	0,037	0,037	0,184
	50 000	0,110	0,037	0,037	0,184

Таблица 10. Параметры бутстрепа для линейной регрессии с зависимой переменной «положение в обществе», агрегированные при помощи усреднения пропущенных значений

Член регр. уравнения	Доля пропущенных значений	Число выборок	Точечная оценка корр. коэффициента	Стд. Ошибка	Нижняя граница ДИ	Верхняя граница ДИ
Константа	10%	1000	4,887	0,571	3,731	6,029
		10 000	4,887	0,567	3,771	5,971
		50 000	4,887	0,571	3,747	5,996
	30%	1000	6,153	0,700	4,802	7,551
		10 000	6,153	0,719	4,740	7,592
		50 000	6,153	0,726	4,729	7,575
	50%	1000	6,754	0,726	5,248	8,180
		10 000	6,754	0,712	5,386	8,142
		50 000	6,754	0,713	5,367	8,166
Длительность очного образования	10%	1000	-0,037	0,029	-0,095	0,022
		10 000	-0,037	0,028	-0,092	0,019
		50 000	-0,037	0,029	-0,092	0,020
	30%	1000	-0,081	0,037	-0,158	-0,007
		10 000	-0,081	0,037	-0,154	-0,008
		50 000	-0,081	0,037	-0,154	-0,008
	50%	1000	-0,112	0,041	-0,191	-0,032
		10 000	-0,112	0,039	-0,191	-0,035
		50 000	-0,112	0,039	-0,190	-0,036
Удовлетворенность системой образования	10%	1000	0,142	0,033	0,075	0,204
		10 000	0,142	0,033	0,076	0,207
		50 000	0,142	0,032	0,080	0,205
	30%	1000	0,057	0,034	-0,009	0,123
		10 000	0,057	0,034	-0,009	0,123
		50 000	0,057	0,034	-0,011	0,124
	50%	1000	-0,008	0,029	-0,063	0,051
		10 000	-0,008	0,030	-0,067	0,050
		50 000	-0,008	0,029	-0,065	0,049
Уровень счастья	10%	1000	0,022	0,036	-0,051	0,092
		10 000	0,022	0,036	-0,049	0,092
		50 000	0,022	0,037	-0,051	0,093
	30%	1000	0,007	0,038	-0,069	0,083
		10 000	0,007	0,037	-0,066	0,081
		50 000	0,007	0,038	-0,069	0,081
	50%	1000	-0,011	0,045	-0,099	0,077
		10 000	-0,011	0,046	-0,102	0,079
		50 000	-0,011	0,045	-0,098	0,080
Член регр. уравнения	Доля пропущенных значений	Число выборок	Точечная оценка корр. коэффициента	Стд. Ошибка	Нижняя граница ДИ	Верхняя граница ДИ
Возраст	10%	1000	-0,007	0,005	-0,017	0,003
		10 000	-0,007	0,005	-0,017	0,002
		50 000	-0,007	0,005	-0,017	0,003
	30%	1000	-0,07	0,006	-0,028	0,004
		10 000	-0,07	0,006	-0,028	0,004
		50 000	-0,07	0,006	-0,019	0,004
	50%	1000	-0,006	0,006	-0,018	0,006
		10 000	-0,006	0,006	-0,019	0,006
		50 000	-0,006	0,006	-0,019	0,006

Размещено на Allbest.ru