Множественное заполнение пропусков как метод борьбы с пропущенными данными

Проблема пропусков в социологических данных. Методика статистического эксперимента для сравнения подходов к агрегированию результатов множественного заполнения пропусков. Характеристика сравнительного анализа подходов к агрегированию результатов.

Рубрика Социология и обществознание
Вид дипломная работа
Язык русский
Дата добавления 31.10.2016
Размер файла 361,9 K

Отправить свою хорошую работу в базу знаний просто. Используйте форму, расположенную ниже

Студенты, аспиранты, молодые ученые, использующие базу знаний в своей учебе и работе, будут вам очень благодарны.

Размещено на http://allbest.ru

Введение

статистический агрегатирование пропуск данные

Одной из неизбежных проблем, сопутствующих любому социологическому исследованию, являются пропуски в данных, приводящие к невозможности применения изначального дизайна исследования, потере данных и смещению результатов. Некоторые виды пропусков - систематические, или неигнорируемые - возможно избежать или устранить только на этапе сбора информации, например, при помощи внесения изменений в анкету, дополнительного инструктажа интервьюеров или многократного обращения к одному и тому же респонденту. Однако существуют методы, позволяющие бороться с игнорируемыми (случайными и полностью случайными) пропусками уже на этапе анализа данных, когда информация собрана и вернуться к этапу опроса нет возможности. На сегодняшний день таких методов разработано достаточно много, от наиболее простых (например, исключение неполных наблюдений) до сложных, в основе которых лежат сложные алгоритмы подбора пропущенных значений в зависимости от характера пропусков, имеющихся в массиве данных и предположений исследователя.

Один из таких сложных способов борьбы с пропущенными данными - разработанный Дональдом Рубином в 1987 году и активно развивающийся метод множественного заполнения пропусков - предполагает подстановку на место каждого пропуска не одного значения, как в случае более простых способов, а нескольких (в среднем, от 3 до 5). В результате исследователь получает три-пять полных массивов, затем анализирует каждый из них и агрегирует результаты, полученные одним и тем же методом на каждом из заполненных массивов, с применением специфических формул, называемых правилом Рубина. Многократная подстановка пропущенных значений позволяет ввести поправку на неопределенность пропуска, то есть не рассматривать подставленное значение как фиксированное и точное отражение того ответа, который на самом деле мог бы дать респондент на данный вопрос.

Очевидно, что проводить один и тот же анализ несколько раз на каждом массиве, а затем объединять их - задача достаточно трудоемкая. Этот процесс отчасти автоматизирован в статистических пакетах, поддерживающих процедуру множественного заполнения пропусков, однако нередко исследователь все же сталкивается с необходимостью подсчитывать параметры вручную с использованием правила Рубина (к примеру, если дизайн исследования предполагает использование процедуры бутстреп для верификации результатов, а используемым статистическим пакетом является SPSS, который не производит процедуру бутстреп на массиве, созданном в результате применения множественного заполнения пропусков). В связи с этим исследователями неоднократно производились попытки упростить алгоритм множественного заполнения пропусков, однако до сих пор они ограничивались каким-либо специфическим видом анализа (к примеру, отбором подобного по вероятности - propensity score estimation [18]) или не слишком распространенной исследовательской ситуацией (например, когда есть возможность опросить всю генеральную совокупность и, в результате, отпадает необходимость в учете выборочной дисперсии [22]). Таким образом, не существует теоретических или эмпирических доказательств того, что эффективные альтернативы применению правила Рубина для всех прочих исследовательских ситуаций действительно существуют.

В данном исследовании предпринята попытка сравнения эффективности двух подходов к агрегированию результатов множественного заполнения пропусков. Первый - классический - предполагает проведение анализа на каждом из восстановленных при помощи множественного заполнения пропусков массивов и агрегирование результатов этого анализа при помощи правила Рубина. Этот метод используется практически во всех исследованиях, где для борьбы с пропусками применяется множественное заполнение. Второй возможный подход - поменять шаги классического алгоритма местами для упрощения работы с ним, то есть сначала произвести агрегирование заполненных значений так, чтобы несколько массивов снова объединить в один (в данной работе - при помощи «усреднения» подставленных вместо пропусков значений для каждого наблюдения, то есть подстановки на место пропуска в единичном массиве подходящей меры центральной тенденции значений, полученных для этого пропуска в результате множественного заполнения), и уже на нем проводить интересующие исследователя тесты. Очевидно, что использование классического, теоретически и методически хорошо разработанного и неоднократно протестированного алгоритма - путь более надежный, однако второй подход существенно ускоряет и облегчает работу с методом множественного заполнения пропусков и, согласно нашим предположениям, в определенных исследовательских ситуациях может служить эффективной заменой классическому алгоритму. Сравнить эффективность того или иного подхода теоретически достаточно трудно, поэтому для первичного тестирования предположений, на который направлена данное исследование, мы будем использовать статистический эксперимент.

Таким образом, данное исследование призвано установить, существуют ли исследовательские ситуации, в которых агрегирование результатов множественного заполнения пропусков при помощи усреднения подставленных значений и проведение анализа на единственном массиве будет более эффективно, чем агрегирование результатов анализа с применением правила Рубина. Мы предполагаем, что эффективность применения того или иного подхода зависит от конкретной исследовательской ситуации, под которой в данной работе мы подразумеваем комбинацию типа шкалы изучаемой переменной с пропусками, доли пропусков в массиве и метода анализа данных, который будет применяться к изучаемой переменной. В данном исследовании будут рассмотрены три типа шкал (номинальная, порядковая и интервальная), случаи 10, 30 и 50% пропусков в массиве и такие распространенные в социологических исследованиях методы анализа данных, как описательная статистика, поиск связи между переменными и линейная регрессия.

Таким образом, проблема исследования заключается в недостаточной изученности эффективности применения правила Рубина и усреднения значений, подставленных на место каждого пропуска как подходов к агрегированию результатов множественного заполнения пропусков в зависимости от исследовательской ситуации.

Цель исследования - оценить эффективность подходов к агрегированию результатов множественного заполнения пропусков (применение правила Рубина и усреднение заполненных значений) в зависимости от исследовательской ситуации.

Достижение указанной цели предполагает последовательное решение следующих задач:

1. Описать суть алгоритма множественного заполнения пропусков и проанализировать основные подходы к агрегированию результатов множественного заполнения пропусков.

2. Предложить методику эксперимента для сравнения эффективности применения правила Рубина и усреднения подставленных значений в зависимости от исследовательской ситуации.

3. Сравнить эффективность применения правила Рубина и агрегирования при помощи усреднения подставленных значений в зависимости от исследовательской ситуации.

4. Выявить наиболее эффективный подход к агрегированию результатов множественного заполнения пропусков для каждой из рассматриваемых исследовательских ситуаций.

5. Составить рекомендации по выбору подхода к агрегированию результатов заполнения пропусков в каждой исследовательской ситуации.

В связи с повсеместным применением классического подхода к агрегированию результатов множественного заполнения пропусков (то есть агрегированию результатов статистических тестов при помощи правила Рубина, заложенного в инструменты анализа результатов множественного заполнения пропусков в тех статистических пакетах, которые поддерживают эту процедуру), на данный момент не существует достаточных теоретических или эмпирических оснований, на которых можно было бы строить гипотезы. Соответственно, рамках данного исследования гипотез выдвинуто не будет.

Теоретическим объектом исследования являются подходы к агрегированию результатов множественного заполнения пропусков.

Предмет исследования - эффективность подходов к агрегированию результатов множественного заполнения пропусков в зависимости от исследовательской ситуации.

В качестве эмпирического объекта в исследовании выступают жители России, принявшие участие в шестой волне Европейского социального исследования, проведенного в 2012 году. Мы используем вторичные данные, поскольку не ставим перед собой никаких содержательных задач, а значит особенности эмпирического объекта не играют роли для целей исследования.

В качестве метода исследования выступает статистический эксперимент.

Таким образом, результатом данного исследования должен стать набор рекомендаций относительно выбора наиболее эффективного подхода к агрегированию результатов множественного заполнения пропусков - правила Рубина или усреднения подставленных значений - для некоторых исследовательских ситуаций.

Глава 1. Множественное заполнение пропусков как метод борьбы с пропущенными данными

Проблема пропусков в социологических данных

Пропущенные данные - проблема, практически неизбежно возникающая при проведении количественного научного исследования и влекущая за собой негативные последствия для его результатов. Хортон и Липшиц [14, p. 244] выделяют три типа затруднений, возникающих по причине наличия пропусков в собранных данных. Во-первых, таким затруднением является существенная потеря отдачи от информации, собранной на полевом этапе, поскольку итоговое количество полных наблюдений не соответствует дизайну исследования. Далее, стандартные статистические пакеты по умолчанию исключают наблюдения с пропусками из анализа тем или иным образом, что не только ставит под вопрос достоверность результатов анализа, но и ограничивает круг применимых к данным статистических инструментов; именно такие ограничения Хортон и Липшиц относят ко второму типу затруднений. Наконец, третий тип касается возможных смещений в результатах исследования по причине различий между наблюдаемыми и пропущенными данными [Ibid.]. Необходимо заметить, что коррекции на этапе анализа данных поддаются не все виды пропусков, поэтому существенным моментом является определение области применимости нашего исследования, а именно типов пропусков, представляющих интерес для данного исследования, которые мы рассмотрим далее.

Классификация пропусков

В процессе сбора социологической информации может возникнуть несколько ситуаций, относящихся к пропускам в данных. Если респондент оказался достижим для исследователя и ему предложили пройти опрос, он может отказаться отвечать вообще (в результате чего мы будем иметь случай отсутствия наблюдения - unit nonresponse), либо ответить на все вопросы (в этом случае мы получим full response - полный ответ), а также отказаться отвечать только на некоторые вопросы анкеты или не суметь на них ответить, в этом случае возникает ситуация неполных наблюдений, то есть отсутствия некоторого набора значений переменных - item nonresponse, борьба с которой происходит уже на этапе обработки полученных данных [2, с. 29]. В фокус нашего исследования находятся именно пропуски типа item nonresponse, для борьбы с которыми применяются статистические методы борьбы с пропусками, в частности, множественное импутирование.

Наиболее принципиальной для выбора способа борьбы с пропусками является природа пропусков, характеризующаяся их случайностью или систематичностью, впервые систематизированная Рубином и Литтлом [6] и подробно описанная в [2, 10, 11, 23].

Пусть имеется некоторая база данных, в которой для каждого респондента k имеется набор из n ответов: k = (k1, …, kn). Тогда в ситуации item nonresponse некоторые из этих ответов, скорее всего, отсутствуют, и все ответы респондента можно разделить на наблюдаемые kobs и пропущенные kmis. Кенвард и Карпентер вводят для каждого ki коэффициент r, который Рубин и Литтл называют индикатором присутствия: он равен единице, если ответ присутствует, и нулю, если ответ пропущен [6, с. 18], и является так называемой случайной величиной второго типа: если обозначить распределение всех возможных значений переменной с пропусками как случайную величину первого типа, то случайная величина второго типа будет указывать на распределение для нее дихотомии «ответ-неответ» [3, с. 149]. В свою очередь, механизм порождения пропуска (missing data mechanism) - это вероятностное распределение r при условии k: P (r | k). Наше знание или незнание о механизме порождения пропусков определяет, каким методом анализа необходимо воспользоваться в каждом конкретном случае, причем если механизм неясен, то выбор производится в соответствии с предположениями исследователя об этом механизме. Анализ не всегда включает в себя механизм порождения пропусков в явном виде, но, если это необходимо, механизм вводится в модель посредством индикатора присутствия [6, с. 18]. Структура пропусков называется монотонной в том случае, если пропуск ki означает, что kj также пропущен для всех i > j [10, p. 200].

Перейдем к самой классификации. Рубин и Литтл выделяют три типа пропусков в зависимости от степени случайности их возникновения. Первый тип - полностью случайные пропуски или MCAR (missing completely at random), механизм порождения которых заключается в том, что вероятность пропуска не зависит от k: P(r | k) = P(r). Кроме того, пропуски называют полностью случайными, если их возникновение обусловлено дизайном исследования, не подразумевающим зависимость от k [10, p. 201]. Случайная величина второго типа в этом случае является определенной, то есть выборочная доля неответов может быть адекватно перенесена на генеральную совокупность [3, с. 152]. Зависимость между вероятностью пропуска, ответами на другие вопросы анкеты или потенциальными ответами на пропущенный вопрос для полностью случайных пропусков отсутствует, и уточнить предсказание о пропущенных значениях при помощи имеющейся информации мы не сможем [13, p. 50]. Те наблюдения, для которых ответ присутствует, образуют простую случайную подвыборку, а значит, являются несмещенной выборкой из генеральной совокупности. К ней можно применять те же статистические критерии, что и к оригинальной выборке, однако их мощность снижается из-за уменьшения ее объема. [2, с. 35].

Пропуск называют случайным или MAR (missing at random) если распределение r не зависит от пропущенных значений интересующей нас переменной: P (r | k) = P (r | kobs). Проще говоря, значения случайных пропусков можно предсказать при помощи других переменных в базе, для которых ответы присутствуют [13, с. 51]. В этом случае мы не можем утверждать, что наблюдения без пропусков образуют случайную подвыборку из оригинальной выборки, однако случайной подвыборкой является совокупность наблюдений с пропуском интересующей нас переменной в каждой подгруппе, выделенной в соответствии со значением определенной полной переменной [6, с. 23]. Таким образом, в данном случае отсутствует зависимость между распределением пропусков в ответах на вопрос и теми ответами, которые потенциально могли дать не ответившие респонденты, однако их неответы связаны со значениями других признаков. Распределение случайной величины для таких пропусков имеет смысл только в подвыборках, но не на всей генеральной совокупности [3, с. 152]. Как для MCAR, так и для MAR функцию f(r | k) можно не вводить в модель, поэтому эти виды пропусков называют игнорируемыми [10, p. 201].

Наконец, третий тип подразумевает, что распределение пропусков зависит как от пропущенных значений, так и от наблюдаемых признаков. В этом случае пропуски называют систематическими или MNAR (missing not at random) и относят к неигнорируемым. Можно сказать, что для систематических пропусков случайная величина второго типа вообще не существует [3, с. 153]. Такая ситуация требует обязательного включения в модель механизма порождения пропусков для устранения систематической ошибки в результатах, причем этот механизм, скорее всего, будет неизвестен исследователю [10, p. 202], поэтому стандартные методы борьбы со смещениями в неполных базах данных - взвешивание, анализ полных наблюдений или заполнение пропусков - не будут корректно выполнять свою задачу [12, p. 984]. Основная рекомендация по устранению систематических пропусков заключается в доработке инструментария до или во время этапа сбора данных, однако Р Глинн, Н. Лэрд и Д. Рубин [12] предлагают метод, позволяющий пользоваться уже имеющимся опросником. Суть их метода заключается в повторной попытке опроса респондентов, в ответах которых возникли неигнорируемые пропуски, получения случайной подвыборки тех, кто ответил при повторном опросе и использования этих наблюдений в смешанной модели с применением множественного заполнения пропусков.

Несмотря на четкое определение механизма порождения пропусков для каждого из рассмотренных случаев, на практике точно сказать, в какую категорию попадают имеющиеся пропуски, не представляется возможным. Однако существует несколько способов установить, являются ли имеющиеся пропуски не полностью случайными или MNCAR (missing not completely at random). Один из них - показатель DRSS, оценивающий различия сумм квадратов остатков в регрессионных уравнениях, построенных на массивах, к которым были применены несколько разных методов заполнения пропусков. В случае, если различия значимы, пропуски являются не полностью случайными. Другой показатель - DXX - использует оценку изменения матрицы Х'Х, где Х - ковариационная матрица для независимых переменных. На не полную случайность пропусков в этом случае указывает значимое изменение ковариационной матрицы признаков [2, с. 37].

Эти способы, как мы видим, позволяют с уверенностью различать полную (MCAR) и не полную (MAR и MNAR) случайность пропусков; различение же MAR и MNAR может базироваться только на исследовательских допущениях, но полностью исключить присутствие в базе данных систематических пропусков на основании анализа наблюдаемых значений нельзя [13, p. 51]. Кроме того, необходимо помнить, что определить степень случайности пропусков возможно исключительно с точностью до имеющихся в массиве переменных: в случае отсутствия в нем переменной, от которой может зависеть распределение пропусков, исследователь может ошибочно определить их как полностью случайные.

Таким образом, областью применимости данного исследования являются только случаи игнорируемых пропусков, поскольку с ними есть возможность эффективно бороться уже после этапа сбора информации с помощью различных способов устранения пропущенных данных, о которых пойдет речь далее.

Методы борьбы с пропущенными данными

На сегодняшний день для устранения пропусков в данных разработано множество методов, от самых простых (например, исключение неполных наблюдений) до комплексных, в основе которых лежат сложные алгоритмы подбора пропущенных значений в зависимости от характера пропусков, имеющихся в массиве данных и предположений исследователя. Кратко обратимся к наиболее распространенным из них.

В первую очередь, обратимся к простым, или, как их называют Литтл и Рубин, быстрым методам борьбы с пропусками: анализу полных наблюдений, анализу доступных наблюдений и взвешиванию данных. Необходимо заметить, что эти подходы подразумевают полную случайность имеющихся пропусков и не подходят для случаев, когда пропуски являются случайными. Рассмотрим каждый из них в отдельности.

При использовании метода анализа полных наблюдений пропуски из базы удаляются построчно, в SPSS, где быстрые методы борьбы с пропусками являются установленными по умолчанию, этот метод обозначен как listwise deletion. Очевидно, что в этом случае потеря информации окажется, как минимум, существенной. Как уже было сказано выше, данный метод применим исключительно к полностью случайным неответам и только в этом случае не приведет к смещению результатов анализа данных. Несмотря на очевидные недостатки в виде жестких требований к пропускам и высокой потере данных, данный способ является простым и позволяет сравнивать между собой одномерные статистики [6, с. 49], что и обеспечивает ему популярность в академической среде. К примеру, исследование Кинга и его коллег показало, что в период с 1993 по 1997 год (то есть спустя 15-20 лет после того, как Дональд Рубин разработал и представил научному сообществу метод множественного заполнения пропусков) около 94% исследователей использовали метод анализа полных наблюдений с потерей до трети собранных данных [13, p. 49].

Метод анализа доступных наблюдений (pairwise deletion) в некоторой степени избавлен от недостатков метода полных наблюдений и подразумевает использование в анализе всех наблюдений, содержащих интересующую исследователя переменную. В этом случае одномерные статистики приобретают смысл сами по себе, однако теряют преимущество сравнимости, поскольку вычисляются на различных подвыборках в зависимости от распределения пропусков. К примеру, если на вопрос о доверии политикам ответы не дали одни респонденты, а на вопрос о доверии полиции - другие, сравнивать уровни доверия политикам и полиции нельзя, поскольку на первый вопрос давала ответ одна подвыборка, а на второй - другая. В случае, если метод анализа данных требует использования более чем одной переменной, в рамках данного способа необходимо рассматривать только наблюдения, для которых присутствуют значения каждой из интересующих исследователя переменных.

Взвешивание данных позволяет исследователю применить к базе метод удаления неполных наблюдений, но сохранить при этом запланированный объем выборки. Для этого полные наблюдения в очищенной базе «взвешивают», то есть назначают каждому наблюдению некоторый вес при расчетах в соответствии с коэффициентом, заданным исследователем. Коэффициент определяется переменной (или переменными), для которых необходимо сохранить структуру выборки. Например, необходимо провести сравнение средних значений индекса счастья в десяти странах, и исследователь хочет применить для этого параметрический метод, однако в двух из десяти стран количество полных наблюдений меньше тридцати, и, следовательно, параметрические методы к таким выборкам неприменимы. В этом случае исследователь при помощи специальных процедур, предусмотренных статистическими пакетами, может увеличить вес каждого наблюдения в двух малых выборках относительно всей совокупности так, что в процессе анализа данных с поправкой на весовой коэффициент выборки для двух интересующих нас стран окажутся достаточными для параметрических тестов. Альтернативный способ применения взвешивания в данном случае - увеличение веса случайно отобранных наблюдений из малых выборок, пока их не окажется достаточно для проведения параметрического анализа. Метод взвешивания полных наблюдений, однако, не лишен тех же недостатков, что и прочие рассмотренные нами быстрые способы борьбы с пропусками: увеличение веса случайных наблюдений может создать или усугубить смещения, имевшиеся в выборке полных наблюдений [2, с. 41], причем не только для выборок с пропусками, но и для полных переменных.

Рассмотрев простые методы борьбы с пропусками и их недостатки, обратимся к более эффективному и современному способу - заполнению пропусков, целью которого является восстановление исходной структуры информации на основании имеющихся в массиве данных. Таким образом исследователь ни в коем случае не производит ответы, которые респондент не давал, но делает предположения о возможном ответе.

Существует несколько методов заполнения пропусков в данных, которые Р. Литтл разделил на простые и сложные, локальные и глобальные. К простым методам относятся заполнение пропусков мерами центральной тенденции, регрессионное моделирование (метод Бака) и Hot Deck. Сложные методы, в свою очередь, подразделяются на локальные (множественное заполнение пропусков) и глобальные (EM-алгоритм). «Глобальность» алгоритма указывает на то, что для заполнения пропуска используются все остальные значения переменных в базе данных, а «локальность» - на использование только близких к пропуску полных наблюдений [2, с. 52-54]. Рассмотрим подробно каждый из этих методов.

Наиболее простые методы заполнения пропусков - заполнение безусловными мерами средней тенденции и заполнение условными средними. В первом случае пропуски заполняются модой для номинальных переменных, медианой для порядковых и средним для интервальных, вычисленными на имеющихся значениях переменной, однако простота данного метода нивелируется тем, что оценки дисперсии и ковариации в этом случае занижаются из-за увеличения количества срединных значений в распределении. Второй случай - метод Бака или регрессионное моделирование - более комплексный и подразумевает «подстановку средних, условных по присутствующим в наблюдении переменным» [6, с. 55]. Он подходит для двух коррелирующих между собой переменных и предполагает построение линейной регрессии зависимости переменной с пропусками от полной переменной на основе наблюдаемых пар ответов. В случае подстановки условных средних дисперсия и ковариация также занижаются, но не так выраженно, как в случае подстановки безусловных мер [1, с. 74].

Hot Deck (метод ближайшего соседа, метод заполнения выборочными значениями) - это метод заполнения пропусков, основанный на расстояниях между объектами, вычисленных исходя из значений известных признаков. Для подстановки можно использовать как значение признака, соответствующее наблюдению, наиболее близкого к неполному [2, с. 44], так и усредненное значение признака в некотором кластере близких объектов либо случайно выбранное в этом кластере значение [1, с. 74]. Способ вычисления расстояний между объектами может варьироваться в зависимости от специфики данных и целей исследования.

Метод максимального правдоподобия, или EM (Expectation-Maximization) -алгоритм - это итеративная процедура, применимая только к интервальным шкалам для решения задач взвешивания оценок наименьших квадратов, оценивания компонент дисперсии и заполнения пропусков в данных. Алгоритм состоит из двух шагов, условно обозначенных Е от Expectation и M от Maximization. На шаге E, основываясь на ковариационных матрицах, мерах центральной тенденции и корреляции между переменной с пропусками и другими переменными в базе предсказывается значение пропуска. На шаге М итеративно максимизируется соответствие между ковариационными матрицами [4, с. 46]. Этот метод является достаточно медленным в условиях большого количества пропусков, поскольку оптимизация потребует большого количества итераций [1, с. 74].

Множественное заполнение пропусков (Multiple Imputation) отличается от всех предыдущих методов тем, что каждое пропущенное значение заменяется рассчитанным значением не однократно, как в методах, рассмотренных выше, а несколько раз, в результате чего исследователь получает несколько полных массивов. В случае применения классического алгоритма с применением правила Рубина процедура происходит следующим образом: на каждом из полученных в результате множественного заполнения пропусков исследователь должен провести интересующий его статистический тест, а затем агрегировать результаты тестов при помощи набора формул, называемых правилом Рубина. В случае же применения метода, который будет протестирован против правила Рубина в данном исследовании, подставленные значения из полученных в результате множественного заполнения пропусков массивов сначала агрегируются (усредняются), результатом чего становится единственный массив с усредненными результатами множественного импутирования, и уже на нем производится интересующий исследователя статистический тест. Применение метода множественного заполнения пропусков позволяет рассматривать подставленное значение не как фиксированное и однозначно известное, но внести поправку на его неопределенность. Поскольку именно множественное заполнение пропусков находится в фокусе данного исследования, рассмотрим смысл этого подхода более подробно и обратим внимание на каждый из шагов алгоритма в том виде, который был разработан Рубином и используется в большинстве случаев до сих пор, затем рассмотрим альтернативы классическому способу агрегирования результатов множественного заполнения пропусков, а также опишем реализацию множественного заполнения пропусков в пакете SPSS, который будет использован в рамках данного исследования.

Множественное заполнение пропусков

При подстановке значений на место пропущенных данных исследователь должен помнить, что результаты импутирования не являются реальными ответами респондентов, и при анализе необходимо учитывать неопределенность, порождаемую совместным распределением интересующей нас переменной с пропусками и соответствующего ей индикатора присутствия, а также самой моделью заполнения (модели заполнения будут подробно рассмотрены ниже) [23, p. 581]. Для снижения этой неопределенности Рубином и Литтлом был разработан метод множественного заполнения пропусков, подразумевающий, что пропуски в исходном массиве заполняются несколько раз с использованием одной и той же модели заполнения пропусков. Тот факт, что в каждом из полученных массивов подставленные значения существенно различаются, эмпирически доказывает существование упомянутой нами неопределенности [2, с. 46].

Достоинства этого метода перед прочими заключаются, во-первых, в том, что множественное импутирование вводит случайную ошибку в процесс заполнения пропусков, что позволяет получить относительно несмещенные оценки статистических параметров; во-вторых, он вносит поправку на дополнительную ошибку, возникающую в процессе импутирования; в-третьих, разнообразие моделей заполнения пропусков и вариабельность позволяют применять этот метод к любому типу данных без использования специальных программ [9, p. 304]. Разберем подробнее, что конкретно здесь подразумевается под «поправкой на дополнительную ошибку». В том случае, если на вопрос ответили все респонденты, в распределении их ответов будет наблюдаться некоторая дисперсия, которую мы можем оценить с точностью до имеющейся выборки и которая является одним из основных показателей искомого закона распределения интересующей нас величины. В том случае, если на вопрос ответили не все респонденты, оценка дисперсии по имеющимся наблюдениям будет гораздо менее точной, чем предполагал изначальный дизайн исследования. Если же мы заполняем эти пропуски только один раз, мы рассматриваем полученные значения как реальные ответы и можем учесть их искусственную природу только условно, а не статистически. В случае применения множественного заполнения пропусков к выборочной («внутримассивной») дисперсии добавляется «межмассивная» дисперсия, которая и позволяет брать в расчет тот факт, что подставленные значения не являются реальными ответами респондентов, иными словами, рассматривать набор подставленных вместо конкретного пропуска значений как выборку, позволяющую установить не истинный ответ респондента, а интервал, в котором этот ответ лежит с некоторой вероятностью.

Сам алгоритм состоит из четырех последовательных шагов:

1. Обследование пропусков.

2. Определение модели заполнения.

3. Подстановка значений.

4. Анализ данных и агрегирование результатов.

Рассмотрим принципы и особенности работы с алгоритмом множественного заполнения пропусков по порядку производимых для его осуществления действий.

Шаг 1: оценка количества и характера пропусков в массиве

На данном шаге исследователь должен, во-первых, определить, к какой шкале относится переменная, содержащая пропуски, во-вторых, проверить пропуски на монотонность и, в-третьих, установить, присутствуют ли в массиве переменные, которые можно использовать для расчета значений, подставляемых на место пропуска. Тип шкалы (дискретная или непрерывная) и структура пропусков (монотонная или немонотонная) определяет, какую модель импутирования нужно будет применить на следующем шаге. Если тип шкалы исследователь может определить самостоятельно, то для оценки на монотонность в статистических пакетах, поддерживающих процедуру множественного заполнения пропусков, существуют специальные инструменты (к примеру, в пакете SPSS для этого используется команда Analyze patterns).

Не существует строгих принципов выбора переменных, используемых для расчета подставляемых значений, в этом вопросе исследователю следует полагаться на собственные предположения и ограниченный набор рекомендаций. К примеру, одним из способов, позволяющих установить наиболее подходящие в смысле расчета значений для заполнения переменные, является моделирование пропусков. Моделирование пропусков предполагает оценку связи между индикатором присутствия интересующей нас переменной с пропусками и переменными, потенциально подходящими для внесения в модель, рассчитывающую значения, которые будут подставлены не место пропусков. Например, так можно установить, что наиболее часто волны панельного исследования пропускали люди с низкой субъективной оценкой здоровья.

Таким образом, для того, чтобы перейти к следующему шагу - выбору и построению модели множественного заполнения пропусков - необходимо:

· установить тип шкалы переменной, содержащей пропуски - дискретный или непрерывный;

· определить структуру пропусков - монотонная или немонотонная;

· отобрать переменные-предикторы, наиболее тесно связанные с переменными, требующими множественной импутации, для внесения в модель множественного заполнения.

Шаг 2: определение модели множественного заполнения

В соответствии с информацией, полученной на предыдущем шаге, исследователю необходимо выбрать модель, наиболее подходящую для заполнения пропусков в интересующей его переменной, и включить в нее отобранные переменные-предикторы. Предназначение модели импутирования заключается в том, чтобы создать на основании наблюдаемых значений переменной с пропусками и ее связей с переменными-предикторами распределение, из которого затем в случайном порядке будут извлекаться значения для подстановки на место пропусков. В литературе описываются три таких модели - предиктивная, степени предрасположенности и дискриминантная. Рассмотрим их основные принципы.

Предиктивная модель множественного заполнения пропусков предназначена для работы с непрерывными переменными. Ее суть заключается в подстановке на место пропуска «ближайшего к спрогнозированному значению реальное значение переменной, принадлежащее полному наблюдению» [2, с. 47]. Прогнозирование производится при помощи построения на полных наблюдениях линейного регрессионного уравнения вида Horton N. J, Lipsitz S.R. Multiple Imputation in Practice: Comparison of Software Packages for Regression Models with Missing Variables // The American Statistician. Vol. 55. No. 3. Р. 244-254, p. 245:

,

где Z1…Zj-1 - известные значения наблюдаемой переменной, содержащей пропуски. На основании полученных коэффициентов регрессии рассчитывается прогнозируемое значение Horton N. J, Lipsitz S.R. Multiple Imputation in Practice: Comparison of Software Packages for Regression Models with Missing Variables // The American Statistician. Vol. 55. No. 3. Р. 244-254, p.246:

.

где ?* - значение дисперсии, а е - случайная величина, которое и подставляется на место пропуска.

Применение модели степени предрасположенности также является обоснованным в том случае, если переменные, содержащие пропуски, - непрерывные, а структура пропусков - монотонная. Она базируется на оценках предрасположенности респондента, то есть вероятности получения его ответа на вопрос [2, с. 47]. Применение модели степени предрасположенности реализуется следующим образом. На основании индикатора присутствия рассчитывается предрасположенность респондента sij ответить или не ответить на вопрос Zhang P. Multiple Imputation: Theory and Method // International Statistical Review / Revue Internationale de Statistique. 2003. No. 71(3), p. 587:

После этого с помощью уравнения логистической регрессии рассчитывается итоговая оценка предрасположенности sij Ibid, p. 588:

На следующем шаге наблюдаемые значения распределяются по квинтилям в зависимости от оценок предрасположенности. Квинтиль содержит r полных наблюдений и m неполных наблюдений. После этого из r полных наблюдений создается выборка с возвращением объемом r наблюдений, из которой случайно отбирается m наблюдений, которые заменяют пропуски в переменной [9, p. 304].

Дискриминантная модель, в отличие от первых двух, призвана заполнять пропуски в дискретных переменных. В ее основе лежит теорема Байеса, в соответствии с которой определяется вероятность того, что вместо пропуска стояло бы то или иное значение в случае, если респондент ответил на вопрос [2, с. 48]. На практике это означает, что на место каждого пропуска подставляется значение (или, другими словами, наблюдение с пропуском относится к некоторой категории, поскольку переменная является категориальной) с наибольшей условной вероятностью, вычисляемой на основании ковариат, отобранных на основании наличия и выраженности связи с переменной, содержащей пропуски, и распределения наблюдаемых значений переменной с пропусками [21, p. 58].

Шаг 3: подстановка значений на место каждого пропуска

Этот шаг включает в себя сам алгоритм множественного заполнения пропусков. Из апостериорного вероятностного распределения, построенного при помощи выбранной на предыдущем шаге модели заполнения, случайным образом извлекаются m наборов значений интересующей нас переменной, которые подставляются в неполный массив, в результате чего мы получаем m полных массивов. Их количество обычно составляет от 3 до 10, согласно рекомендации Рубина, поскольку большое количество подстановок не дает существенного увеличения эффективности оценки е, вычисляемой по формуле

,

где г - доля пропусков, а m - количество массивов. К примеру, эффективность оценки для 10 массивов и 50% пропусков составляет 95%, а для 5 массивов и 10% пропусков - 99%.

Шаг 4: анализ данных и агрегирование результатов

Классический алгоритм множественного заполнения пропусков предполагает проведение анализа данных на каждом из сформированных на предыдущем шаге массивов и агрегирование результатов анализа данных при помощи набора формул - правила Рубина, - который позволяет вычислить оценки статистических параметров: точечную оценку, стандартное отклонение, доверительный интервал и значение t-статистики [11, p. 66]. Агрегированная оценка параметра O (например, выборочная оценка коэффициента корреляции) будет равна:

где j - набор данных (j=1,2,...,m), а Uj -- стандартная ошибка параметра Qj.

Для оценки агрегированной дисперсии необходимо вычислить внутригрупповую дисперсию:

и межгрупповую дисперсию:

.

Тогда общая дисперсия будет равна:

.

Доверительные интервалы вычисляются при помощи значения распределения Стьюдента с df степенями свободы, вычисляемыми по формуле:

Проверка нулевой гипотезы выполняется при помощи сравнения соотношения с соответствующим значением распределения Стьюдента [5, с. 205-206].

Как мы видим, метод множественного заполнения пропусков является достаточно комплексным и трудоемким при условии того, что исследователь (как это обычно и происходит) придерживается классического алгоритма, то есть анализирует пропуски, заполняет их, в среднем, три-пять раз, анализирует каждый из трех-пяти полных массивов, а затем агрегирует результаты. Поэтому для упрощения работы с этим методом были предприняты неоднократные попытки упрощения алгоритма в зависимости от исследовательской ситуации.

К примеру, в статье «Pooling multiple imputations when the sample happens to be the population» [22] рассматривалась ситуация, когда выборка исследования представляет собой всю генеральную совокупность: в пример авторы привели ситуацию исследования редких медицинских состояний. В этом случае классический алгоритм переоценивает дисперсию переменной с пропусками ввиду использования при агрегировании результатов предположения о бесконечном объеме генеральной совокупности, из которой отобраны имеющиеся наблюдения. В результате доверительные интервалы оказываются шире, чем требуется, что ведет к снижению точности оценки. Для подобных случаев авторы предлагают упрощенную формулу агрегирования результатов анализа каждого из полных массивов, которая принимает во внимание дисперсию пропущенных значений, обусловленную механизмом возникновения пропуска, и игнорирует выборочную дисперсию.

В исследовании Робина Митры и Джерома Рейтера [18], посвященном применению метода отбора подобного по вероятности с использованием множественного заполнения пропусков, сравнивались два метода агрегирования применительно к задаче измерения эффектов обработки. В первом случае агрегирование производилось по правилу Рубина, то есть статистический анализ производился на каждом из m заполненных массивов, а затем его результаты объединялись. Во втором случае заполненные значения для всех m массивов усреднялись и анализ производился на одном полном массиве с усредненными заполненными значениями. Митра и Рейтер аргументируют легитимность применения предлагаемого способа агрегирования результатов множественного заполнения пропусков «интуитивной адекватностью» [18, p. 189]. Контраргументом к этому утверждению может служить вопрос: не сводится ли множественное заполнение пропусков к заполнению условным средним в случае применения альтернативного способа агрегирования?

Простой ответ на него можно получить, рассуждая следующим образом. Основное отличие множественного заполнения пропусков от заполнения условным средним заключается во введении поправки на неопределенность пропуска: единичное заполнение предполагает рассмотрение заполненного значения как фиксированного и известного, а множественное, напротив, берет во внимание неопределенность, задаваемую вероятностным распределением возможных значений пропуска в зависимости от наблюдаемых переменных [11, p. 44]. Исходя из этой принципиальной особенности метода, агрегирование результатов множественного заполнения пропусков при помощи усреднения подставленных значений не сводится к единичному заполнению и все еще принимает во внимание данный тип неопределенности. Следовательно, подобный метод призван упростить работу с алгоритмом без потери комплексного подхода к анализу и заполнению пропусков. Тем не менее, рассматриваемый исследователями метод анализа - отбор подобного по вероятности - является достаточно специфическим и применяется только в случае необходимости оценки эффектов обработки, а исследований, посвященных сравнению эффективности разных подходов к агрегированию результатов множественного заполнения пропусков применительно к более распространенным исследовательским ситуациям, насколько нам известно, не существует. В связи с этим данное исследование направлено на первичное сравнение эффективности агрегирования результатов множественного заполнения пропусков при помощи усреднения подставленных значений с эффективностью применения правила Рубина для набора исследовательских ситуаций, описываемых долей пропусков в массиве, шкалой, в которой измерена переменная, содержащая пропуски, и несколькими распространенными в социологических исследованиях инструментами анализа данных.

Реализация множественного заполнения пропусков в пакете SPSS

Статистический пакет SPSS предусматривает две процедуры для работы с пропущенными данными: анализ пропущенных переменных, включающий инструменты анализа и единичного заполнения пропусков, и множественное заполнение пропусков, содержащий инструменты для анализа пропусков, непосредственно направленные на последующую множественную импутацию, а также сам алгоритм множественного заполнения пропусков. Рассмотрим вторую процедуру подробнее.

Задача изучения структуры пропущенных данных реализуется при помощи инструмента Analyze Patterns, который позволяет определить, является ли она монотонной или немонотонной, выявить переменные с наибольшим числом пропусков, долю пропущенных данных в массиве и т. д. Инструмент импутирования Impute Missing Data Values работает следующим образом: после выбора как минимум двух переменных с пропусками и определения количества импутирований (по умолчанию их 5) SPSS создает новый файл, содержащий исходные наблюдения с пропусками и все наборы наблюдений с импутированиями, то есть если мы, к примеру, имеем 10 неполных наблюдений и 5 импутирований, то результирующий файл будет содержать 60 наблюдений. Кроме того, создается дополнительные переменные Imputation_, которые по сути являются индикаторами присутствия по числу импутирований для каждого наблюдения.

По умолчанию алгоритм автоматически оценивает пропуски на монотонность и выбирает между монотонной моделью и методом Монте-Карло с цепями Маркова, если пропуски оказываются немонотонными. Кроме того, можно запросить вручную применение метода Монте-Карло или предиктивную модель, а также назначить максимальное число итераций. В качестве результата пакет SPSS выдает спецификации метода, информацию об использованной модели и описательные статистики для переменных с импутированными значениями в каждом из массивов. Для дальнейшего анализа переменная, содержащая индикаторы присутствия, используется в качестве группирующей.

Итак, основные выводы первой главы, посвященной теоретическим основаниям исследования, заключаются в следующих тезисах:

· сфера применимости исследования ограничивается игнорируемыми пропусками, поскольку направлено на устранение пропусков в данных уже после окончания этапа сбора информации;

· исследование направлено на оптимизацию алгоритма множественного заполнения пропусков - наиболее комплексного и наименее «жесткого» из распространенных на сегодняшний день методов борьбы с пропущенными данными - при помощи альтернативного подхода к агрегированию результатов множественного заполнения пропусков;

· необходимость поиска оптимизированного метода агрегирования обусловлена тем, что заложенное в классическом алгоритме агрегирование при помощи правила Рубина является трудоемким и длительным, а исследований, посвященных альтернативным способам агрегирования в распространенных исследовательских ситуациях, на данный момент не существует.

Рассмотрев проблему пропусков в социологических исследованиях, основные методы борьбы с пропусками и специфику такого метода, как множественное заполнение пропусков, мы можем перейти к описанию методологии проведенного нами статистического эксперимента.

Глава 2. Методика статистического эксперимента для сравнения подходов к агрегированию результатов множественного заполнения пропусков

Данная глава посвящена описанию методики статистического эксперимента, проведенного нами с целью сравнения эффективности применения правила Рубина и усреднения подставленных значений как подходов к агрегированию результатов множественного заполнения пропусков.

Этапы эксперимента

Наш эксперимент состоит из 8 последовательных этапов:

1. Отбор переменных, позволяющих провести интересующие нас виды анализа: описательную статистику для переменных, измеренных в номинальной, порядковой и интервальной шкале, множественную линейную регрессию и поиск связи между двумя переменными.

2. Искусственное формирование эталонного массива из полных наблюдений: отбор только наблюдений, не содержащих пропусков по всем переменным, отобранным нами на предыдущем этапе.

3. Фиксация эталонных результатов анализа данных: реализация методов описательной статистики, поиска связи между переменными и множественной линейной регрессии на эталонном массиве с применением процедуры бутстреп.

4. Искусственное внесение в эталонной массив разного количества полностью случайных пропусков.

5. Заполнение пропусков в каждом из сформированных на предыдущем этапе массивов при помощи множественного заполнения пропусков.

6. Реализация методов описательной статистики, поиска связи между переменными и множественной линейной регрессии на полученных массивах с применением процедуры бутстреп и агрегирование результатов по правилу Рубина.

7. Агрегирование результатов множественного заполнения пропусков через усреднение подставленных значений для каждого пропуска, реализация методов описательной статистики, поиска связи между переменными и множественной линейной регрессии на единичных массивах с усредненными подставленными значениями с применением процедуры бутстреп.

8. Сравнение результатов анализа данных, полученных на шагах 6 и 7, с эталонными результатами для определения для каждой рассмотренной исследовательской ситуации наиболее эффективного подхода к агрегированию результатов множественного заполнения пропусков.

Использование процедуры бутстреп необходимо в рамках статистического эксперимента для того, чтобы верифицировать полученные выводы об эффективности каждого подхода к агрегированию результатов множественного заполнения пропусков. Процедура бутстреп предполагает интервальное оценивание параметров при помощи извлечения большого количества псевдовыборок с возвращением из эталонного массива полных наблюдений, то есть каждый объект может попасть в одну и ту же псевдовыборку несколько раз.

Используя распределение значений параметра, полученных на каждой из извлеченных выборок, бутстреп позволяет рассчитать стандартную ошибку параметра и построить доверительный интервал Kromrey J.D., Hines C.V. Nonrandomly Missing Data in Multiple Regression: An Empirical Comparison of Common Missing-Data Treatments // Educational and Psychological Measurement. Vol. 54. P. 573-593, p. 577.

По итогам процедуры бутстреп рассчитывается стандартная ошибка оцениваемого параметра с использованием формулы Шитиков В.К., Розенберг Г.С. Рандомизация и бутстреп: статистический анализ в биологии и экологии с использованием R. Тольятти: Кассандра, 2013, стр. 17:

,

где b - количество искусственно созданных выборок, а и*j - разброс значений изучаемого параметра на b выборках.

Доверительный интервал строится по следующей формуле Там же, стр. 19:

,

где 1-г - выбранный исследователем уровень значимости, b - количество извлеченных бутстреп-выборок, х*j - количество оценок среднего на b выборок, принявших значение меньшее, чем Х*В, Х*В - верхний предел доверительного интервала.


Подобные документы

  • Теоретическое обоснование проблемы интерпретации результатов социологических исследований. Определение и виды социологических исследований, процедура анализа их результатов. Практическое применение интерпретации данных социологических исследований.

    курсовая работа [52,3 K], добавлен 10.01.2011

  • Понятие и сущность макросоциологии и микросоциолгии. Изучение основных положений данных наук на основе проведения их сравнительного анализа. Поиск отличий и единства подходов к исследованию социальных структур и поведения людей в их взаимодействии.

    реферат [19,4 K], добавлен 11.05.2014

  • Понятие метода и методики социологических исследований. Метод опроса в социологическом исследовании. Методы механической, серийной, гнездовой и квотной выборки. Создание широких сетей интервьюеров. Качественные методы анализа социологических данных.

    курсовая работа [32,4 K], добавлен 27.05.2015

  • Сущность социологического исследования. Этапы его проведения: разработка программы, сбор первичных данных путем опроса, наблюдения или эксперимента, проведение линейного и структурно-типологического анализа результатов исследования, их оформление.

    реферат [37,1 K], добавлен 28.11.2010

  • Понятие и типы социологических исследований, этапы их проведения, подготовительные и основные. Методы эмпирических социологических исследований, анализ и оценка, интерпретация полученных результатов, существующие проблемы и их решение, управление.

    контрольная работа [22,8 K], добавлен 14.06.2015

  • Программа социологического исследования. Основные методы сбора социологической информации: анализа документов, наблюдения, опроса, экспертной оценки и эксперимента. Обработка результатов исследования. Разделы статистики политической и общественной жизни.

    курсовая работа [82,7 K], добавлен 21.02.2014

  • Определение и виды эксперимента, его использование в науке. Особенности использования метода эксперимента в политических, социологических исследованиях. Применение метода эксперимента при проведении опросов о политических ориентациях жителей г. Астрахани.

    курсовая работа [49,2 K], добавлен 22.06.2015

  • Проблема изучения различий в материальной обеспеченности населения России. Социальные научно-практические исследования. Подбор информационных ресурсов. Характеристикиа и качество ресурса в целом. Методика обработки данных и статистического анализа.

    реферат [39,3 K], добавлен 03.11.2008

  • Обзор методов проведения эмпирических исследований социально-экономических и политических процессов. Особенности анализа документов как метода проведения социологических исследований. Специфика методики массового опроса, эксперимента и наблюдения.

    курсовая работа [78,7 K], добавлен 31.01.2014

  • Сбор социологических данных. Диалектика общего, особенного и единичного. Качественные и количественные методы социологических исследований. Обработка полученных данных. Анализ социальной действительности. Механизм адаптации людей к социальным изменениям.

    реферат [26,8 K], добавлен 27.01.2013

Работы в архивах красиво оформлены согласно требованиям ВУЗов и содержат рисунки, диаграммы, формулы и т.д.
PPT, PPTX и PDF-файлы представлены только в архивах.
Рекомендуем скачать работу.