Множественное заполнение пропусков как метод борьбы с пропущенными данными

Проблема пропусков в социологических данных. Методика статистического эксперимента для сравнения подходов к агрегированию результатов множественного заполнения пропусков. Характеристика сравнительного анализа подходов к агрегированию результатов.

Рубрика Социология и обществознание
Вид дипломная работа
Язык русский
Дата добавления 31.10.2016
Размер файла 361,9 K

Отправить свою хорошую работу в базу знаний просто. Используйте форму, расположенную ниже

Студенты, аспиранты, молодые ученые, использующие базу знаний в своей учебе и работе, будут вам очень благодарны.

Таким образом, применительно к множественной линейной регрессии мы можем отметить следующие тенденции:

· эффективный подход к вычислению константы изменялся в зависимости от количества извлекаемых бутстрепом выборок на массивах с 10% и 30% подставленных значений, однако для 50% пропусков более эффективным подходом оказалось применение правила Рубина при извлечении любого количества выборок;

· для вычисления регрессионных коэффициентов для всех четырех предикторов на массивах с 10% подставленных значений более эффективным подходом к агрегированию оказалось правило Рубина;

· для вычисления одного значимого коэффициента регрессии при предикторе, измеренной в 11-балльной шкале и двух незначимых при истинном и 11-балльном предикторах на массивах с 30% и 50% подставленных значений более эффективным подходом к агрегированию оказалось также правило Рубина;

· усреднение подставленных значений показало большую эффективность только в одном случае: для вычисления коэффициента регрессии при значимом предикторе, измеренном в «истинной» интервальной шкале.

Описав полученные нами результаты анализа данных, мы можем перейти к решению последней задачи данного исследования, а именно составлению рекомендаций по выбору подхода к агрегированию в зависимости от исследовательской ситуации.

Рекомендации по выбору подхода к агрегированию результатов множественного заполнения пропусков

Обобщим результаты проведенного нами эксперимента в виде набора рекомендаций по выбору подхода к агрегированию результатов множественного заполнения пропусков в рассмотренных нами исследовательских ситуаций.

1. Описательная статистика.

· Для описания номинальной переменной при помощи долей значений признака в ситуации большого (до 50%), маленького (до 10%) и умеренного (30%) количества пропусков в массиве для агрегирования результатов множественного заполнения пропусков предпочтительно выбирать правило Рубина.

· Для описания порядковой переменной при помощи долей значений признака для агрегирования результатов множественного заполнения пропусков предпочтительно выбирать:

a) в ситуации маленького (10%) количества пропусков в массиве - правило Рубина;

b) в ситуации умеренного (30%) количества пропусков в массиве - усреднение подставленных значений;

c) в ситуации большого (50%) количества пропусков в массиве оба подхода имеют одинаковую эффективность.

· Для описания интервальной переменной при помощи среднего арифметического и дисперсии для агрегирования результатов множественного заполнения пропусков предпочтительно выбирать:

a) в ситуации небольшого (10%) количества пропусков в массиве - усреднение подставленных значений;

b) в ситуации умеренного (30%) количества пропусков в массиве - правило Рубина для среднего арифметического и усреднение подставленных значений для дисперсии;

c) в ситуации большого (50%) количества пропусков в массиве - усреднение подставленных значений для среднего арифметического и правило Рубина для дисперсии.

2. Поиск связи между двумя признаками.

· для поиска немонотонной связи между двумя номинальными переменными с использованием коэффициента V Крамера для агрегирования результатов множественного заполнения пропусков предпочтительно выбирать:

a) в случае предположения о наличии немонотонной связи между признаками и любого (10-50%) количества пропусков в массиве - усреднение подставленных значений;

b) в случае предположения об отсутствии немонотонной связи между признаками и большого (50%) количества пропусков в массиве, а также в случае предположения об отсутствии немонотонной связи между признаками и небольшого (10%) или умеренного (30%) количества пропусков в массиве оба подхода одинаково эффективны.

· для поиска монотонной связи между двумя порядковыми переменными с использованием коэффициента Спирмена для агрегирования результатов множественного заполнения пропусков предпочтительно выбирать:

a) в случае предположения о наличии или отсутствии монотонной связи между двумя признаками и небольшого (10%) или большого (50%) количества пропусков в массиве - усреднение подставленных значений;

b) в случае предположения о наличии или отсутствии монотонной связи между двумя признаками и умеренного (30%) количества пропусков в массиве - правило Рубина.

· для поиска линейной связи между двумя интервальными переменными с использованием коэффициента Пирсона для агрегирования результатов множественного заполнения пропусков в случае предположения о наличии или отсутствии линейной связи и любого (10-50%) количества пропусков в массиве предпочтительно выбирать усреднение подставленных значений.

3. Множественная линейная регрессия.

· Для оценки константы и предположениях о значимости или незначимости регрессионных коэффициентов во множественной линейной регрессии в ситуации любого (10-50%) количества пропусков в массиве

Заключение

Пропущенные значения являются проблемой, с которой приходится сталкиваться в любом социологическом исследовании и приводят к ряду затруднений, таких как невозможность применения изначального дизайна исследования, потеря данных и смещение результатов. На сегодняшний день разработано много методов борьбы с пропусками, которые не удалось устранить на этапе сбора информации, но возможно скорректировать уже на этапе анализа данных (такие пропуски называют игнорируемыми). Одним из наиболее современных и активно развивающихся методов борьбы с пропусками после завершения полевого этапа является разработанное Дональдом Рубином множественное заполнение пропусков, которое, однако, является методом достаточно долгим и трудоемким. По этой причине одним из направлений развития метода является его оптимизация, то есть поиск способов упрощения работы с алгоритмом множественного заполнения пропусков без потери эффективности, отличающей его от прочих методов борьбы с пропущенными данными. В качестве такого способа оптимизации в противовес классическому алгоритму мы предложили «усреднение» подставленных значений, то есть замена пропусков в массиве соответствующей мерой центральной тенденции, рассчитанной на наборе подставленных в ходе множественного заполнения пропусков значений.

В данном исследовании нами был проведен сравнительный анализ эффективности применения правила Рубина и усреднения подставленных значений как подходов к агрегированию результатов множественного заполнения пропусков в зависимости от исследовательской ситуации. При помощи реализованного нами статистического эксперимента мы оценили эффективность подходов применительно к исследовательским ситуациям, характеризующимся разными долями пропусков в массиве, разными шкалами переменных, и тремя распространенными в социологических исследованиях методами анализа данных - описательная статистика, поиск связи между двумя признаками и множественная линейная регрессия. На основании сравнения оценок эффективности подходов мы составили следующие рекомендации по выбору подхода к агрегированию результатов множественного заполнения пропусков для перечисленных исследовательских ситуаций:

1. Описательная статистика: для описания номинальных переменных следует выбирать правило Рубина, а для описания порядковых и интервальных выбор подхода зависит от количества пропусков в массиве.

2. Поиск связи между признаками: для поиска связи между номинальными признаками с помощью коэффициента V Крамера и между порядковыми признаками с помощью коэффициента Спирмена выбор подхода также зависит от доли пропусков в массиве, а для поиска связи между интервальными переменными при помощи коэффициента Пирсона при любом количестве пропусков в массиве предпочтительно выбирать усреднение подставленных значений.

3. Множественная линейная регрессия: вычисление как константы, так и регрессионных коэффициентов при значимых и незначимых предикторах предпочтительно производить с применением правила Рубина для агрегирования результатов заполнения.

Сфера применения результатов данного исследования ограничивается только случаями игнорируемых (случайных и полностью случайных) пропусков, поскольку только игнорируемые пропуски поддаются корректировке на этапе анализа данных, когда вернуться к этапу сбора информации уже невозможно. Кроме того, в данном исследовании был рассмотрен только очень узкий круг исследовательских ситуаций: мы рассмотрели всего три инструмента анализа данных из очень широкого круга статистических методов, применяемых в социологии. В связи с этим делать широкие теоретические или методические обобщения на основании данного исследования нельзя, однако одним из наиболее общих результатов исследования стало экспериментальное доказательство того, что для определенных исследовательских ситуаций более простой в осуществлении подход к агрегированию результатов множественного заполнения пропусков - усреднение подставленных значений при помощи соответствующей меры центральной тенденции для шкалы переменной, содержащей пропуски -оказывается эффективнее классического теоретически обоснованного правила Рубина.

Таким образом, данное исследование проложило новое направление для оптимизации применения множественного заполнения пропусков в зависимости от исследовательской ситуации. Дальнейшие исследования в данной области могут касаться следующих проблем:

· теоретическое обоснование адекватности применения усреднения подставленных значений для агрегирования результатов множественного заполнения пропусков;

· расширение круга экспериментально обоснованных рекомендаций по выбору подхода к агрегированию результатов множественного заполнения пропусков в различных исследовательских ситуациях;

· теоретическое обоснование эффективности усреднения пропущенных значений или применения правила Рубина в конкретных исследовательских ситуациях.

Список использованной литературы

1. Дударев В.А. Подход к заполнению пропусков в обучающих выборках для компьютерного конструирования неорганических соединений // Вестник МИТХТ. 2014. Т. 9. № 1. С. 73-75.

2. Зангиева И.К. Проблема пропусков в социологических данных: смысл и подходы к решению // Социология: Методология, методы, математическое моделирование. 2011. Т. 33. С. 28-56.

3. Зангиева И.К., Толстова Ю.Н. Понятие случайности и проблема пропусков данных в социологии // В кн.: Математическое моделирование социальных процессов / Науч. ред.: А. Михайлов. Вып. 14. М. : Социологический факультет МГУ, 2012. Гл. 14. С. 146-165.

4. Зангиева И.К., Тимонина Е.С. Сравнение эффективности алгоритмов заполнения пропусков в данных в зависимости от используемого метода анализа // Мониторинг общественного мнения, №1 (119). 2014. сс. 41-55.

5. Кутлалиев А. Х. Метод множественного восстановления данных // В кн.: Социологические методы в современной исследовательской практике: Сборник статей, посвященный памяти первого декана факультета социологии НИУ ВШЭ А.О. Крыштановского [Электронный ресурс] / Отв. ред.: О. А. Оберемко. М.: Издательский дом НИУ ВШЭ, 2011. С. 201-208.

6. Литтл Р., Рубин Д. Статистический анализ данных с пропусками / пер. с англ. - М.: Финансы и статистика, 1990. - 336 с.

7. Толстова Ю.Н. Математико-статистические модели в социологии (математическая статистика для социологов): учебное пособие. М.: Изд. дом ГУ-ВШЭ, 2008.

8. Шитиков В.К., Розенберг Г.С. Рандомизация и бутстреп: статистический анализ в биологии и экологии с использованием R. Тольятти: Кассандра, 2013. - 314 с.

9. Allison P. Multiple imputation for missing data: A cautionary tale // Sociological Methods and Research. 2000. No. 28. 301-309.

10. Carpenter J., Kenward M. Multiple imputation: current perspectives // Statistical Methods in Medical Research. 2007. Vol. 16, no. 3. 199-218.

11. Brand J.P.L. Development, Implementation and Evaluation of Multiple Imputation Strategies for the Statistical Analysis of Incomplete Data Sets. Thesis Erasmus University Rotterdam, 1999.

12. Glynn R., Laird N., Rubin D. Multiple imputation in Mixture models for Nonignorable Nonresponse with Follow-ups // Journal of the American Statistical Association. Vol. 88, No. 423. 1993. 984-993.

13. Honaker J., Joseph A., King G., Scheve K. Analyzing Incomplete Political Science Data: An Alternative Algorithm for Multiple Imputation // The American Political Science Review. 2001. Vol. 95, No. 1. 49-69.

14. Horton N., Lipsitz S. Multiple Imputation in Practice: Comparison of Software Packages for Regression Models With Missing Variables // The American Statistician. 2001. Vol. 55, No. 3. 244-254.

15. Hutchenson G., Pampaka M., Williams J. Handling missing data: analysis of a challenging data set using multiple imputation // International Journal of Recearch & Method in Education. 2016. Vol. 29, No. 1. 19-37.

16. IBM SPSS Missing Values 22 [on-line]. URL: http://www.sussex.ac.uk/its/pdfs/SPSS_Missing_Values_22.pdf (accessed: May 15, 2016).

17. Lee K., Simpson J. Introduction to multiple imputation for dealing with missing data // Respirology. 2014. No 19. 162-167.

18. Mitra R., Reiter J.P. A comparison of two methods of estimating propensity scores after multiple imputation // Statistical Methods in Medical Research. 2016. Vol. 25, Issue 1. 188-204.

19. Rubin D. Multiple Imputation for Nonresponse in Surveys. John Wiley & Sons, 2009.

20. Rubin D. Multiple imputation in sample surveys - a phenomenological Bayesian approach to nonresponse / ASA Proc Section on Survey Res Methods. 1978. 20-34.

21. SOLAS Version 4.0: manual [on-line]. URL: http://www.statsols.com/wp-content/uploads/2013/12/Solas-4-Manual1.pdf (accessed: April 27, 2016).

22. Vink G., van Buuren S. Pooling multiple imputations when the sample happens to be the population [online source] // Cornell University Library. 2014. URL: http://arxiv.org/abs/1409.8542 (accessed: May 3, 2016).

23. Zhang P. Multiple imputation: theory and method // International Statistical Review. 2003. Vol. 71, no. 3. 581-592.

Приложение

Таблица 1. Эталонные параметры бутстрепа для долей людей, проживающих в населенных пунктах разного типа

Значение переменной

Число выборок

Выборочная доля, %

Стд. Ошибка, %

Нижняя граница ДИ, %

Верхняя граница ДИ, %

Мегаполис

1000

42,3

2,1

38,3

46,5

10 000

42,3

2,0

38,3

46,2

50 000

42,3

2,0

38,3

46,2

Пригород мегаполиса

1000

3,4

0,7

2,0

4,9

10 000

3,4

0,7

2,1

4,9

50 000

3,4

0,7

2,1

4,9

Небольшой город

1000

34,1

1,9

30,3

37,7

10 000

34,1

1,9

30,3

37,8

50 000

34,1

1,9

30,3

37,8

Деревня

1000

20,2

1,6

17,1

23,5

10 000

20,2

1,6

17,1

23,5

50 000

20,2

1,6

17,1

23,5

Таблица 2. Эталонные параметры бутстрепа для долей людей с разным уровнем заинтересованности в политике

Значение переменной

Число выборок

Выборочная доля, %

Стд. Ошибка, %

Нижняя граница ДИ, %

Верхняя граница ДИ, %

Очень заинтересован

1000

16,8

1,5

14,0

19,7

10 000

16,8

1,5

13,9

19,7

50 000

16,8

1,5

13,9

19,7

Довольно заинтересован

1000

42,6

2,0

38,5

46,3

10 000

42,6

2,0

38,7

46,5

50 000

42,6

2,0

38,7

46,5

Едва ли заинтересован

1000

30,7

1,9

27,1

34,3

10 000

30,7

1,9

27,1

34,4

50 000

30,7

1,9

27,1

34,4

Совершенно не заинтересован

1000

10,0

1,2

7,7

12,6

10 000

10,0

1,2

7,7

12,4

50 000

10,0

1,2

7,7

12,4

Таблица 3. Параметры бутстрепа для среднего количества лет очного образования и дисперсии на эталонном массиве

Число выборок

Выборочное среднее

Стд. Ошибка

Нижняя граница ДИ

Верхняя граница ДИ

Среднее

1000

13,13

0,12

12,89

13,36

10 000

13,13

0,12

12,90

13,36

50 000

13,13

0,12

12,90

13,36

Дисперсия

1000

8,389

0,591

7,306

9,581

10 000

8,389

0,587

7,286

9,580

50 000

8,389

0,588

7,286

9,592

Таблица 4. Параметры бутстрепа для коэффициента V Крамера на эталонном массиве в ситуации отсутствия связи, переменные «пол» и «тип населенного пункта»

Число выборок

Выборочное значение

Значимость

Стд. Ошибка

Нижняя граница ДИ

Верхняя граница ДИ

1000

0,074

0,343

0,035

0,033

0,166

10 000

0,074

0,343

0,035

0,031

0,167

50 000

0,074

0,343

0,035

0,031

0,167

Таблица 5. Параметры бутстрепа для коэффициента V Крамера на эталонном массиве в ситуации наличия связи, переменные «пол» и «трудовые отношения»

Число выборок

Выборочное значение

Значимость

Стд. Ошибка

Нижняя граница ДИ

Верхняя граница ДИ

1000

0,141

0,000

0,04

0,056

0,215

10 000

0,141

0,000

0,04

0,060

0,216

50 000

0,141

0,000

0,04

0,061

0,216

Таблица 6.Параметры бутстрепа для коэффициента ранговой корреляции Спирмена на эталонном массиве в ситуации наличия связи, переменные «интерес к политике» и «продолжительность просмотра новостей»

Число выборок

Выборочное значение

Значимость

Стд. Ошибка

Нижняя граница ДИ

Верхняя граница ДИ

1000

-0,006

0,890

0,041

-0,088

0,072

10 000

-0,006

0,890

0,039

-0,082

0,071

50 000

-0,006

0,890

0,39

-0,083

0,072

Таблица 7. Параметры бутстрепа для коэффициента ранговой корреляции Спирмена на эталонном массиве в ситуации отсутствия связи, переменные «близость к партии» и «субъективная оценка здоровья»

Число выборок

Выборочное значение

Значимость

Стд. Ошибка

Нижняя граница ДИ

Верхняя граница ДИ

1000

-0,392

0,000

0,035

-0,458

-0,321

10 000

-0,392

0,000

0,036

-0,460

-0,320

50 000

-0,392

0,000

0,036

-0,460

-0,320

Таблица 8. Параметры бутстрепа для коэффициента корреляции Пирсона на эталонном массиве в ситуации отсутствия связи, переменные «количество лет очного образования» и «положение на шкале левое крыло-правое крыло»

Число выборок

Выборочное значение

Значимость

Стд. Ошибка

Нижняя граница ДИ

Верхняя граница ДИ

1000

-0,076

0,060

0,041

-0,160

-0,001

10 000

-0,076

0,060

0,041

-0,157

0,005

50 000

-0,076

0,060

0,041

-0,156

0,005

Таблица 9. Параметры бутстрепа для коэффициента корреляции Пирсона на эталонном массиве в ситуации наличия связи, переменные «уровень счастья» и «положение в обществе»

Число выборок

Выборочное значение

Значимость

Стд. Ошибка

Нижняя граница ДИ

Верхняя граница ДИ

1000

0,346

0,000

0,036

0,276

0,417

10 000

0,346

0,000

0,036

0,273

0,415

50 000

0,346

0,000

0,036

0,273

0,415

Таблица 11. Параметры бутстрепа для регрессионных коэффициентов на эталонном массиве, зависимая переменная - «положение в обществе»

Переменная

Число выборок

Значение B

Значимость

Стд. Ошибка

Нижняя граница ДИ

Верхняя граница ДИ

Константа

1000

3,278

0,001

0,460

2,434

4,197

10 000

3,278

0,000

0,457

2,377

4,167

50 000

3,278

0,000

0,457

2,379

4,164

Количество лет очного образования

1000

0,015

0,488

0,023

-0,028

0,060

10 000

0,015

0,488

0,022

-0,028

0,059

50 000

0,015

0,493

0,022

-0,028

0,059

Удовлетворенность системой образования

1000

0,021

0,416

0,27

-0,034

0,072

10 000

0,021

0,410

0,26

-0,029

0,073

50 000

0,021

0,408

0,26

-0,030

0,073

Уровень счастья

100

0,269

0,001

0,032

0,205

0,332

10 000

0,269

0,000

0,032

0,206

0,333

50 000

0,269

0,000

0,032

0,206

0,333

Возраст

1000

-0,013

0,002

0,004

-0,021

-0,005

10 000

-0,013

0,001

0,004

-0,021

-0,005

50 000

-0,013

0,001

0,004

-0,021

-0,005

Результаты анализа данных, агрегированные при помощи правила Рубина

Таблица 1. Параметры бутстрепа для долей людей, проживающих в населенных пунктах разного типа, агрегированные при помощи правила Рубина

Значение переменной

Доля пропущенных значений

Число выборок

Выборочная доля, %

Стд. Ошибка, %

Нижняя граница ДИ, %

Верхняя граница ДИ, %

Мегаполис

10%

1000

40,8

2

36,9

44,7

10 000

40,8

2

36,9

44,7

50 000

40,8

2

36,9

44,7

30%

1000

39,9

2

36

43,7

10 000

39,9

2

36

43,7

50 000

39,9

2

36

43,7

50%

1000

35,4

1,9

31,6

39,2

10 000

35,4

1,9

31,6

39,2

50 000

35,4

1,9

31,6

39,2

Пригород мегаполиса

10%

1000

6,4

1

4,5

8,3

10 000

6,4

1

4,5

8,3

50 000

6,4

1

4,5

8,3

30%

1000

11,7

1,3

9,1

14,3

10 000

11,7

1,3

9,1

14,3

50 000

11,7

1,3

9,1

14,3

50%

1000

17,1

1,5

14,1

20,1

10 000

17,1

1,5

14,1

20,1

50 000

17,1

1,5

14,1

20,1

Небольшой город

10%

1000

33

1,9

29,3

36,7

10 000

33

1,9

29,3

36,7

50 000

33

1,9

29,3

36,7

30%

1000

30,3

1,9

26,7

34

10 000

30,3

1,9

26,7

34

50 000

30,3

1,9

26,7

34

50%

1000

29,5

1,8

25,9

33,2

10 000

29,5

1,8

25,9

33,2

50 000

29,5

1,8

25,9

33,2

Деревня

10%

1000

16,3

1,5

13,2

19,3

10 000

19,8

1,6

16,6

23

50 000

19,8

1,6

16,6

23

30%

1000

18,1

1,6

15,1

21,2

10 000

18,1

1,6

15,1

21,2

50 000

18,1

1,6

15,1

21,2

50%

1000

17,9

1,5

14,8

21

10 000

17,9

1,5

14,8

21

50 000

17,9

1,5

14,8

21

Таблица 2. Параметры бутстрепа для долей людей, в разной степени заинтересованных в политике, агрегированные при помощи правила Рубина

Значение переменной

Доля пропущенных значений

Число выборок

Выборочная доля, %

Стд. ошибка, %

Нижняя граница ДИ, %

Верхняя граница ДИ, %

Очень заинтересован

10%

1000

17,5

1,5

14,5

20,6

10 000

17,5

1,5

14,5

20,6

50 000

17,5

1,5

14,5

20,6

30%

1000

16,9

1,5

14

19,9

10 000

16,9

1,5

14

19,9

50 000

16,9

1,5

14

19,9

50%

1000

19,1

1,6

16

22,2

10 000

19,1

1,6

16

22,2

50 000

19,1

1,6

16

22,2

Довольно заинтересован

10%

1000

42,4

2

38,5

46,3

10 000

42,6

2

38,7

46,5

50 000

42,6

2

38,7

46,5

30%

1000

39,5

2

35,7

43,4

10 000

39,5

2

35,7

43,4

50 000

39,5

2

35,7

43,4

50%

1000

38,7

2

34,8

42,5

10 000

38,7

2

34,8

42,5

50 000

38,7

2

34,8

42,5

Едва ли заинтересован

10%

1000

29,8

1,8

26,2

33,4

10 000

29,8

1,8

26,2

33,4

50 000

29,8

1,8

26,2

33,4

30%

1000

27,8

1,8

24,3

31,4

10 000

27,8

1,8

24,3

31,4

50 000

27,8

1,8

24,3

31,4

50%

1000

25,9

1,8

22,4

29,3

10 000

25,9

1,8

22,4

29,3

50 000

25,9

1,8

22,4

29,3

Совершенно

не заинтересован

10%

1000

10,3

1,2

7,9

12,7

10 000

10,3

1,2

7,9

12,7

50 000

10,3

1,2

7,9

12,7

30%

1000

15,7

1,5

12,8

18,6

10 000

15,7

1,5

12,8

18,6

50 000

15,7

1,5

12,8

18,6

50%

1000

16,4

1,5

13,5

19,3

10 000

16,4

1,5

13,5

19,3

50 000

16,4

1,5

13,5

19,3

Таблица 3. Параметры бутстрепа для среднего и дисперсии количества лет очного образования, агрегированные при помощи правила Рубина

Доля пропусков

Показатель

Число выборок

Выборочное среднее

Стд. Ошибка

Нижняя граница ДИ

Верхняя граница ДИ

10%

Среднее

1000

13,07

0,01

13,04

13,10

10 000

13,07

0,01

13,04

13,10

50 000

13,07

0,01

13,04

13,10

Дисперсия

1000

8,61

0,03

8,55

8,67

10 000

8,61

0,03

8,55

8,67

50 000

8,61

0,03

8,55

8,67

30%

Среднее

1000

13,06

0,01

13,03

13,09

10 000

13,06

0,01

13,03

13,09

50 000

13,06

0,01

13,03

13,09

Дисперсия

1000

0,08

0,03

8,02

8,14

10 000

0,08

0,03

8,02

8,14

50 000

0,08

0,03

8,02

8,14

50%

Среднее

1000

13,05

0,01

13,02

13,08

10 000

13,05

0,01

13,02

13,08

50 000

13,05

0,01

13,02

13,08

Дисперсия

1000

8,85

0,03

8,78

8,92

10 000

8,85

0,03

8,78

8,92

50 000

8,85

0,03

8,78

8,92

Таблица 4. Параметры бутстрепа для V Крамера, агрегированные при помощи правила Рубина в ситуации отсутствия связи, переменные «пол» и «тип населенного пункта»

Доля пропусков

Число выборок

Выборочное значение

Стд. Ошибка

Низ ДИ

Верх ДИ

10%

1000

0,08

0,01

0,07

0,1

10 000

0,08

0,01

0,07

0,1

50 000

0,08

0,01

0,07

0,1

30%

1000

0,09

0,01

0,07

0,1

10 000

0,09

0,01

0,07

0,1

50 000

0,09

0,01

0,07

0,1

50%

1000

0,12

0,01

0,1

0,13

10 000

0,12

0,01

0,1

0,13

50 000

0,12

0,01

0,1

0,13

Таблица 5. Параметры бутстрепа для V Крамера, агрегированные при помощи правила Рубина в ситуации наличия связи, переменные «пол» и «трудовые отношения»

Доля пропусков

Число выборок

Выборочное значение

Стд. Ошибка

Низ ДИ

Верх ДИ

10%

1000

0,16

0,01

0,14

0,18

10 000

0,16

0,01

0,14

0,18

50 000

0,16

0,01

0,14

0,18

30%

1000

0,63

0,02

0,59

0,67

10 000

0,63

0,02

0,59

0,67

50 000

0,63

0,02

0,59

0,67

50%

1000

0,07

0,01

0,05

0,09

10 000

0,07

0,01

0,05

0,09

50 000

0,07

0,01

0,05

0,09

Таблица 17. Параметры бутстрепа для коэффициента Спирмена агрегированные при помощи правила Рубина в ситуации отсутствия связи, переменные «близость к партии» и «субъективная оценка здоровья»

Доля пропусков

Число выборок

Выборочное значение

Стд. Ошибка

Низ ДИ

Верх ДИ

10%

1000

-0,01

0,01

-0,02

0,01

10 000

-0,01

0,01

-0,02

0,01

50 000

-0,01

0,01

-0,02

0,01

30%

1000

-0,06

0,01

-0,08

0,04

10 000

-0,06

0,01

-0,08

0,04

50 000

-0,06

0,01

-0,08

0,04

50%

1000

-0,04

0,01

-0,05

-0,02

10 000

-0,04

0,01

-0,05

-0,02

50 000

-0,04

0,01

-0,05

-0,02

Таблица 18. Параметры бутстрепа для коэффициента Спирмена, агрегированные при помощи правила Рубина в ситуации наличия связи, переменные «интерес к политике» и «продолжительность просмотра новостей»

Доля пропусков

Число выборок

Выборочное значение

Стд. Ошибка

Низ ДИ

Верх ДИ

10%

1000

-0,33

0,01

-0,35

-0,31

10 000

-0,33

0,01

-0,35

-0,31

50 000

-0,33

0,01

-0,35

-0,31

30%

1000

-0,16

0,01

-0,18

-0,14

10 000

-0,16

0,01

-0,18

-0,14

50 000

-0,16

0,01

-0,18

-0,14

50%

1000

-0,04

0,01

-0,05

-0,02

10 000

-0,04

0,01

-0,05

-0,02

50 000

-0,04

0,01

-0,05

-0,02

Таблица 19. Параметры бутстрепа для коэффициента Пирсона, агрегированные при помощи правила Рубина в ситуации отсутствия связи, переменные «количество лет очного образования» и «положение на шкале левое крыло-правое крыло»

Доля пропусков

Число выборок

Выборочное значение

Стд. Ошибка

Низ ДИ

Верх ДИ

10%

1000

-0,04

0,01

-0,05

-0,02

10 000

-0,04

0,01

-0,05

-0,02

50 000

-0,04

0,01

-0,05

-0,02

30%

1000

-0,05

0,01

-0,07

-0,03

10 000

-0,05

0,01

-0,07

-0,03

50 000

-0,05

0,01

-0,07

-0,03

50%

1000

-0,05

0,01

-0,06

-0,03

10 000

-0,05

0,01

-0,06

-0,03

50 000

-0,05

0,01

-0,06

-0,03

Таблица 20. Параметры бутстрепа для коэффициента Пирсона, агрегированные при помощи правила Рубина в ситуации наличия связи, переменные «уровень счастья» и «положение в обществе»

Доля пропусков

Число выборок

Выборочное значение

Стд. Ошибка

Низ ДИ

Верх ДИ

10%

1000

0,2

0,01

0,19

0,22

10 000

0,2

0,01

0,19

0,22

50 000

0,2

0,01

0,19

0,22

30%

1000

0,12

0,01

0,1

0,13

10 000

0,12

0,01

0,1

0,13

50 000

0,12

0,01

0,1

0,13

50%

1000

0,03

0,01

0,02

0,05

10 000

0,03

0,01

0,02

0,05

50 000

0,03

0,01

0,02

0,05

Таблица 14. Параметры бутстрепа для линейной регрессии с зависимой переменной «положение в обществе», агрегированные при помощи правила Рубина

Член регр. уравнения

Доля пропущенных значений

Число выборок

Точечная оценка корр. коэффициента

Стд. Ошибка

Нижняя граница ДИ

Верхняя граница ДИ

Константа

10%

1000

4,05

0,03

4,00

4,11

10 000

4,05

0,04

3,98

4,13

50 000

4,05

0,04

3,98

4,13

30%

1000

5,76

0,07

5,54

5,8

10 000

5,67

0,07

5,54

5,8

50 000

5,67

0,07

5,54

5,8

50%

1000

4,60

0,05

4,50

4,71

10 000

4,60

0,05

4,50

4,71

50 000

4,60

0,05

4,50

4,71

Длительность очного образования

10%

1000

0,03

0,01

0,02

0,04

10 000

0,03

0,01

0,02

0,04

50 000

0,03

0,01

0,02

0,04

30%

1000

0

0,01

-0,01

0,02

10 000

0

0,01

-0,01

0,02

50 000

0

0,01

-0,01

0,02

50%

1000

0,02

0,01

0,00

0,04

10 000

0,02

0,01

0,00

0,04

50 000

0,02

0,01

0,00

0,04

Удовлетворенность системой образования

10%

1000

0,04

0,01

0,02

0,05

10 000

0,04

0,01

0,02

0,05

50 000

0,04

0,01

0,02

0,05

30%

1000

-0,03

0,01

-0,04

-0,01

10 000

-0,03

0,01

-0,04

-0,01

50 000

-0,03

0,01

-0,04

-0,01

50%

1000

-0,04

0,01

-0,06

-0,03

10 000

-0,04

0,01

-0,06

-0,03

50 000

-0,04

0,01

-0,06

-0,03

Уровень счастья

10%

1000

0,17

0,01

0,16

0,19

10 000

0,17

0,01

0,16

0,19

50 000

0,17

0,01

0,16

0,19

30%

1000

0,11

0,01

0,09

0,12

10 000

0,11

0,01

0,09

0,12

50 000

0,11

0,01

0,09

0,12

50%

1000

0,04

0,01

0,03

0,06

10 000

0,04

0,01

0,03

0,06

50 000

0,04

0,01

0,03

0,06

Член регр. уравнения

Доля пропущенных значений

Число выборок

Точечная оценка корр. коэффициента

Стд. Ошибка

Нижняя граница ДИ

Верхняя граница ДИ

Возраст

10%

1000

-0,02

0,00

-0,02

-0,01

10 000

-0,02

0,00

-0,02

-0,01

50 000

-0,02

0,00

-0,02

-0,01

30%

1000

-0,02

0,00

-0,03

-0,01

10 000

-0,02

0,00

-0,03

-0,01

50 000

-0,02

0,00

-0,03

-0,01

50%

1000

0,00

0,00

0,00

0,01

10 000

0,00

0,00

0,00

0,01

50 000

0,00

0,00

0,00

0,01

Результаты анализа данных, агрегированные при помощи усреднения подставленных значений

Таблица 1. Параметры бутстрепа для долей людей, проживающих в населенных пунктах разного типа, агрегированные при помощи усреднения пропущенных значений

Значение переменной

Доля пропущенных значений

Число выборок

Выборочная доля, %

Стд. Ошибка, %

Нижняя граница ДИ, %

Верхняя граница ДИ, %

Мегаполис

10%

1000

41,6

2

37,8

45,7

10 000

41,6

2

37,7

45,5

50 000

41,6

2

37,7

45,5

30%

1000

39,5

2

35,6

43,2

10 000

39,5

2

35,7

43,4

50 000

39,5

2

35,7

43,4

50%

1000

35,9

1,9

32,1

39,5

10 000

35,9

1,9

32,1

39,6

50 000

35,9

1,9

32,1

39,6

Пригород мегаполиса

10%

1000

6,7

1

4,7

8,6

10 000

6,7

1

4,7

8,6

50 000

6,7

1

4,7

8,6

30%

1000

13,9

1,4

11,3

16,6

10 000

13,9

1,4

11,1

16,6

50 000

13,9

1,4

11,3

16,6

50%

1000

19,7

1,6

16,6

23

10 000

19,7

1,6

16,6

23

50 000

19,7

1,6

16,6

23

Небольшой город

10%

1000

32,1

1,9

28,5

35,9

10 000

32,1

1,9

28,5

35,9

50 000

32,1

1,9

28,5

35,9

30%

1000

29,2

1,9

25,3

33,1

10 000

29,2

1,8

25,6

32,8

50 000

29,2

1,8

25,6

32,8

50%

1000

27,6

1,8

24

31

10 000

27,6

1,8

24

31,2

50 000

27,6

1,8

24

31,2

Деревня

10%

1000

19,6

1,6

16,6

23

10 000

19,6

1,6

16,5

22,8

50 000

19,6

1,6

16,5

22,7

30%

1000

17,5

1,5

14,5

20,6

10 000

17,5

1,5

14,5

20,6

50 000

17,5

1,5

14,5

20,6

50%

1000

16,8

1,5

13,9

19,7

10 000

16,8

1,5

13,9

19,7

50 000

16,8

1,5

13,9

19,7

Таблица 2. Параметры бутстрепа для долей людей, в разной степени заинтересованных в политике, агрегированные при помощи усреднения пропущенных значений

Значение переменной

Доля пропущенных значений

Число выборок

Выборочная доля, %

Стд. Ошибка, %

Нижняя граница ДИ, %

Верхняя граница ДИ, %

Очень заинтересован

10%

1000

17,1

1,5

14,4

20,1

10 000

17,1

1,5

14,2

20,2

50 000

17,1

1,5

14,2

20,2

30%

1000

15,7

1,5

12,7

18,8

10 000

15,7

1,5

12,9

18,6

50 000

15,7

1,5

12,9

18,6

50%

1000

17,1

1,5

14,2

20,1

10 000

17,1

1,5

14,2

20,1

50 000

17,1

1,5

14,2

20,1

Довольно заинтересован

10%

1000

44

2

40,5

48

10 000

44

2

40,1

48,1

50 000

44

2

40,1

48,1

30%

1000

44,9

2

40,8

48,6

10 000

44,9

2

40,9

48,8

50 000

44,9

2

40,9

48,8

50%

1000

51,4

2

47

55,1

10 000

51,4

2

47,5

55,5

50 000

51,4

2

47,6

55,7

Едва ли заинтересован

10%

1000

29,4

1,8

25,9

32,8

10 000

29,4

1,8

25,8

33

50 000

29,4

1,8

25,8

33

30%

1000

30,3

1,8

26,6

34,1

10 000

30,3

1,9

26,8

34,1

50 000

30,3

1,9

26,8

34

50%

1000

25,4

1,8

22,2

29,2

10 000

25,4

1,8

22

28,9

50 000

25,4

1,8

22

28,9

Совершенно не заинтересован

10%

1000

9,5

1,2

7,2

11,7

10 000

9,5

1,2

7,2

11,9

50 000

9,5

1,2

7,2

11,9

30%

1000

9,1

1,1

7

11,3

10 000

9,1

1,2

6,9

11,4

50 000

9,1

1,2

6,9

11,4

50%

1000

6

1

4,2

8

10 000

6

1

4,2

8

50 000

6

1

4,2

8

Таблица 3. Параметры бутстрепа для среднего количества лет очного образования и дисперсии, агрегированные при помощи усреднения пропущенных значений

Доля пропущенных значений

Показатель

Число выборок

Выборочное среднее

Стд. Ошибка

Нижняя граница ДИ

Верхняя граница ДИ

10%

Среднее

1000

13,07

0,119

12,85

13,30

10 000

13,07

0,113

12,85

13,29

50 000

13,07

0,114

12,85

13,29

Дисперсия

1000

8,077

0,589

6,966

9,293

10 000

8,077

0,570

7,004

9,242

50 000

8,077

0,571

7,009

9,245

30%

Среднее

1000

13,05

0,1

12,87

13,25

10 000

13,05

0,1

12,86

13,25

50 000

13,05

0,1

12,86

13,25

Дисперсия

1000

6,150

0,399

5,327

6,920

10 000

6,150

0,404

5,387

6,954

50 000

6,150

0,407

5,367

6,966

50%

Среднее

1000

13,05

0,09

12,88

13,23

10 000

13,05

0,09

12,88

13,23

50 000

13,05

0,09

12,88

13,23

Дисперсия

1000

4,894

0,329

4,276

5,546

10 000

4,894

0,335

4,249

5,552

50 000

4,894

0,334

4,258

5,568

Таблица 4. Параметры бутстрепа для V Крамера, агрегированные при помощи усреднения пропущенных значений в ситуации отсутствия связи, переменные «пол» и «тип населенного пункта»

Доля пропущенных значений

Число выборок

Выборочное значение

Стд. Ошибка

Нижняя граница ДИ

Верхняя граница ДИ

10%

1000

0,094

0,037

0,043

0,182

10 000

0,094

0,037

0,044

0,186

50 000

0,094

0,037

0,044

0,186

30%

1000

0,098

0,038

0,042

0,195

10 000

0,098

0,038

0,044

0,193

50 000

0,098

0,038

0,043

0,193

50%

1000

0,141

0,037

0,08

0,224

10 000

0,141

0,037

0,079

0,226

50 000

0,141

0,037

0,08

0,228

Таблица 5. Параметры бутстрепа для V Крамера, агрегированные при помощи усреднения пропущенных значений в ситуации отсутствия связи, переменные «пол» и «трудовые отношения»

Доля пропущенных значений

Число выборок

Выборочное значение

Стд. Ошибка

Нижняя граница ДИ

Верхняя граница ДИ

10%

1000

0,156

0,04

0,075

0,236

10 000

0,156

0,04

0,074

0,230

50 000

0,156

0,04

0,074

0,230

30%

1000

0,162

0,043

0,078

0,247

10 000

0,162

0,043

0,077

0,243

50 000

0,162

0,043

0,077

0,242

50%

1000

0,099

0,041

0,021

0,181

10 000

0,099

0,041

0,020

0,180

50 000

0,099

0,041

0,020

0,180

Таблица 6. Параметры бутстрепа для коэффициента Спирмена агрегированные при помощи усреднения пропущенных значений в ситуации отсутствия связи, переменные «близость к партии» и «субъективная оценка здоровья»

Доля пропусков

Число выборок

Выборочное значение

Стд. Ошибка

Низ ДИ

Верх ДИ

10%

1000

0,026

0,042

-0,062

0,105

10 000

0,026

0,040

-0,054

0,105

50 000

0,026

0,040

-0,051

0,107

30%

1000

-0,091

0,040

-0,168

0,01

10 000

-0,091

0,039

-0,167

0,012

50 000

-0,091

0,039

-0,167

0,012

50%

1000

-0,059

0,039

-0,138

0,016

10 000

-0,059

0,039

-0,137

0,017

50 000

-0,059

0,039

-0,137

0,017

Таблица 7. Параметры бутстрепа для коэффициента Спирмена, агрегированные при помощи усреднения пропущенных значений в ситуации наличия связи, переменные «интерес к политике» и «продолжительность просмотра новостей»

Доля пропусков

Число выборок

Выборочное значение

Стд. Ошибка

Низ ДИ

Верх ДИ

10%

1000

-0,346

0,038

-0,423

-0,270

10 000

-0,346

0,038

-0,421

-0,269

50 000

-0,346

0,038

-0,419

-0,269

30%

1000

-0,141

0,043

-0,224

-0,056

10 000

-0,141

0,043

-0,223

-0,056

50 000

-0,141

0,043

-0,223

-0,056

50%

1000

-0,151

0,040

-0,229

-0,069

10 000

-0,151

0,039

-0,228

-0,074

50 000

-0,151

0,039

-0,228

-0,075

Таблица 8. Параметры бутстрепа для коэффициента Пирсона, агрегированные при помощи усреднения пропущенных значений в ситуации отсутствия связи, переменные «количество лет очного образования» и «положение на шкале левое крыло-правое крыло»

Доля пропусков

Число выборок

Выборочное значение

Стд. Ошибка

Низ ДИ

Верх ДИ

10%

1000

-0,047

0,041

-0,128

-0,030

10 000

-0,047

0,040

-0,125

-0,032

50 000

-0,047

0,040

-0,125

-0,031

30%

1000

-0,084

0,039

-0,160

-0,005

10 000

-0,084

0,039

-0,160

-0,007

50 000

-0,084

0,039

-0,160

-0,007

50%

1000

-0,106

0,039

-0,181

-0,029

10 000

-0,106

0,039

-0,182

-0,029

50 000

-0,106

0,039

-0,182

-0,029

Таблица 9. Параметры бутстрепа для коэффициента Пирсона, агрегированные при помощи усреднения пропущенных значений в ситуации наличия связи, переменные «уровень счастья» и «положение в обществе»

Доля пропусков

Число выборок

Выборочное значение

Стд. Ошибка

Низ ДИ

Верх ДИ

10%

1000

0,244

0,037

0,175

0,318

10 000

0,244

0,037

0,168

0,317

50 000

0,244

0,037

0,167

0,317

30%

1000

0,166

0,039

0,090

0,239

10 000

0,166

0,039

0,092

0,239

50 000

0,166

0,039

0,092

0,239

50%

1000

0,110

0,036

0,036

0,178

10 000

0,110

0,037

0,037

0,184

50 000

0,110

0,037

0,037

0,184

Таблица 10. Параметры бутстрепа для линейной регрессии с зависимой переменной «положение в обществе», агрегированные при помощи усреднения пропущенных значений

Член регр. уравнения

Доля пропущенных значений

Число выборок

Точечная оценка корр. коэффициента

Стд. Ошибка

Нижняя граница ДИ

Верхняя граница ДИ

Константа

10%

1000

4,887

0,571

3,731

6,029

10 000

4,887

0,567

3,771

5,971

50 000

4,887

0,571

3,747

5,996

30%

1000

6,153

0,700

4,802

7,551

10 000

6,153

0,719

4,740

7,592

50 000

6,153

0,726

4,729

7,575

50%

1000

6,754

0,726

5,248

8,180

10 000

6,754

0,712

5,386

8,142

50 000

6,754

0,713

5,367

8,166

Длительность очного образования

10%

1000

-0,037

0,029

-0,095

0,022

10 000

-0,037

0,028

-0,092

0,019

50 000

-0,037

0,029

-0,092

0,020

30%

1000

-0,081

0,037

-0,158

-0,007

10 000

-0,081

0,037

-0,154

-0,008

50 000

-0,081

0,037

-0,154

-0,008

50%

1000

-0,112

0,041

-0,191

-0,032

10 000

-0,112

0,039

-0,191

-0,035

50 000

-0,112

0,039

-0,190

-0,036

Удовлетворенность системой образования

10%

1000

0,142

0,033

0,075

0,204

10 000

0,142

0,033

0,076

0,207

50 000

0,142

0,032

0,080

0,205

30%

1000

0,057

0,034

-0,009

0,123

10 000

0,057

0,034

-0,009

0,123

50 000

0,057

0,034

-0,011

0,124

50%

1000

-0,008

0,029

-0,063

0,051

10 000

-0,008

0,030

-0,067

0,050

50 000

-0,008

0,029

-0,065

0,049

Уровень счастья

10%

1000

0,022

0,036

-0,051

0,092

10 000

0,022

0,036

-0,049

0,092

50 000

0,022

0,037

-0,051

0,093

30%

1000

0,007

0,038

-0,069

0,083

10 000

0,007

0,037

-0,066

0,081

50 000

0,007

0,038

-0,069

0,081

50%

1000

-0,011

0,045

-0,099

0,077

10 000

-0,011

0,046

-0,102

0,079

50 000

-0,011

0,045

-0,098

0,080

Член регр. уравнения

Доля пропущенных значений

Число выборок

Точечная оценка корр. коэффициента

Стд. Ошибка

Нижняя граница ДИ

Верхняя граница ДИ

Возраст

10%

1000

-0,007

0,005

-0,017

0,003

10 000

-0,007

0,005

-0,017

0,002

50 000

-0,007

0,005

-0,017

0,003

30%

1000

-0,07

0,006

-0,028

0,004

10 000

-0,07

0,006

-0,028

0,004

50 000

-0,07

0,006

-0,019

0,004

50%

1000

-0,006

0,006

-0,018

0,006

10 000

-0,006

0,006

-0,019

0,006

50 000

-0,006

0,006

-0,019

0,006

Размещено на Allbest.ru


Подобные документы

  • Теоретическое обоснование проблемы интерпретации результатов социологических исследований. Определение и виды социологических исследований, процедура анализа их результатов. Практическое применение интерпретации данных социологических исследований.

    курсовая работа [52,3 K], добавлен 10.01.2011

  • Понятие и сущность макросоциологии и микросоциолгии. Изучение основных положений данных наук на основе проведения их сравнительного анализа. Поиск отличий и единства подходов к исследованию социальных структур и поведения людей в их взаимодействии.

    реферат [19,4 K], добавлен 11.05.2014

  • Понятие метода и методики социологических исследований. Метод опроса в социологическом исследовании. Методы механической, серийной, гнездовой и квотной выборки. Создание широких сетей интервьюеров. Качественные методы анализа социологических данных.

    курсовая работа [32,4 K], добавлен 27.05.2015

  • Сущность социологического исследования. Этапы его проведения: разработка программы, сбор первичных данных путем опроса, наблюдения или эксперимента, проведение линейного и структурно-типологического анализа результатов исследования, их оформление.

    реферат [37,1 K], добавлен 28.11.2010

  • Понятие и типы социологических исследований, этапы их проведения, подготовительные и основные. Методы эмпирических социологических исследований, анализ и оценка, интерпретация полученных результатов, существующие проблемы и их решение, управление.

    контрольная работа [22,8 K], добавлен 14.06.2015

  • Программа социологического исследования. Основные методы сбора социологической информации: анализа документов, наблюдения, опроса, экспертной оценки и эксперимента. Обработка результатов исследования. Разделы статистики политической и общественной жизни.

    курсовая работа [82,7 K], добавлен 21.02.2014

  • Определение и виды эксперимента, его использование в науке. Особенности использования метода эксперимента в политических, социологических исследованиях. Применение метода эксперимента при проведении опросов о политических ориентациях жителей г. Астрахани.

    курсовая работа [49,2 K], добавлен 22.06.2015

  • Проблема изучения различий в материальной обеспеченности населения России. Социальные научно-практические исследования. Подбор информационных ресурсов. Характеристикиа и качество ресурса в целом. Методика обработки данных и статистического анализа.

    реферат [39,3 K], добавлен 03.11.2008

  • Обзор методов проведения эмпирических исследований социально-экономических и политических процессов. Особенности анализа документов как метода проведения социологических исследований. Специфика методики массового опроса, эксперимента и наблюдения.

    курсовая работа [78,7 K], добавлен 31.01.2014

  • Сбор социологических данных. Диалектика общего, особенного и единичного. Качественные и количественные методы социологических исследований. Обработка полученных данных. Анализ социальной действительности. Механизм адаптации людей к социальным изменениям.

    реферат [26,8 K], добавлен 27.01.2013

Работы в архивах красиво оформлены согласно требованиям ВУЗов и содержат рисунки, диаграммы, формулы и т.д.
PPT, PPTX и PDF-файлы представлены только в архивах.
Рекомендуем скачать работу.