Прогнозирование преждевременного расторжения договоров страхования жизни
Методы прогнозного моделирования. Влияние различных параметров договоров и характеристик клиентов на факт расторжения договоров страхования. Построение моделей разрыва контракта по желанию клиента и из-за неуплаты с помощью логистической регрессии.
Рубрика | Банковское, биржевое дело и страхование |
Вид | дипломная работа |
Язык | русский |
Дата добавления | 31.10.2016 |
Размер файла | 1,9 M |
Отправить свою хорошую работу в базу знаний просто. Используйте форму, расположенную ниже
Студенты, аспиранты, молодые ученые, использующие базу знаний в своей учебе и работе, будут вам очень благодарны.
Размещено на http://www.allbest.ru/
Размещено на http://www.allbest.ru/
Оглавление
- Введение
- Глава 1. Теоретические предпосылки исследования
- 1.1 Страхование жизни: характеристика и особенности
- 1.2 Причины расторжения договоров
- 1.3 Постановка проблемы
- 1.4 Методы бинарной классификации
- Глава 2. Статистические методы моделирования страхования жизни
- 2.1 Методы описательной статистики
- 2.2 Бинарная логистическая регрессия
- 2.3 Регрессия Кокса
- 2.4 Random Forest
- 2.5 Моделирование на основе нейронных сетей
- 2.6 Анализ качества бинарных классификаторов
- 2.7 Проблема несбалансированных выборок
- Глава 3. Моделирование расторжения договоров страхования жизни на основе статистических методов
- 3.1 Подготовка информационной базы исследования
- 3.2 Структура страхового портфеля
- 3.3 Модели расторжения договоров страхования жизни
- 3.3.1 Бинарная логистическая регрессионная модель
- 3.3.2 Регрессия Кокса
- 3.3.3 Модель на основе метода Random Forest
- 3.3.4 Нейросетевая модель
- 3.5 Сравнительный анализ моделей расторжения договоров
- Заключение
- Список литературы
- Приложение
Введение
Страхование жизни является неотъемлемой частью в системе страховой защиты интересов человека. Процедура призвана осуществить пенсионное обеспечение и выплаты денежных средств при реализации таких рисков как утрата трудоспособности или потеря кормильца семьи. Страхование жизни на российском рынке страховых услуг является одним из самых быстрорастущих сегментов [1]. Факторами, влияющими на данную ситуацию, могут быть, с одной стороны, снижение доверия граждан к государственной пенсионной системе, а, с другой - стремление в случае непредвиденных обстоятельств или после выхода на пенсию обеспечить себе и близким людям достойный уровень жизни. Но, тем не менее, по мере того, как данный вид страхования приобретает всё большую популярность, в России, становятся актуальными исследования, связанные с предсказанием поведения людей, страхующих свою жизнь.
Понимание и предсказание поведения своего клиента является актуальной проблемой для страхового дела, как и для любого другого бизнеса. Следует отметить, что, не будучи использованной для прогнозирования будущих действий потребителя, любая клиентская база данных не может считаться до конца раскрывшей свой потенциал. Находить закономерности и зависимости в больших массивах исторических данных и делать предсказания насчет поведения клиентов позволяют методы прогностической аналитики. С ее помощью может быть получена информация о потенциальном поведении потребителя, помогающая грамотно организовать работу, связанную с поддержкой договоров страхования жизни.
Актуальность работы обусловлена тем, что выявление среди клиентов страховых компании группы риска, состоящей из людей, более других склонных к расторжению договора страхования жизни, позволяет вести целенаправленную работу по их удержанию. В конечном итоге, данные активности должны привести к уменьшению оттока клиентов и, как следствие, положительно сказаться на финансовых показателях страховой компании.
Объектом исследования является портфель договоров страхования жизни страховой компании.
Предмет исследования - факт расторжения договоров клиентами компании.
Целью данной работы является прогнозирование преждевременного расторжения договоров страхования жизни с учетом параметров договоров и социально-демографических характеристик клиентов.
Для достижения цели необходимо решить следующие задачи:
- подготовить информационную базу к исследованию;
- выявить влияние параметров договоров и социально-демографических характеристик клиентов на факт расторжения договоров страхования;
- разработать модели прогнозирования факта расторжения договоров страхования, учитывающие причины, лежащие в основе события;
- определить оптимальные пороги отсечения для разработанных моделей бинарных классификаторов;
- сравнить полученные модели и выбрать наиболее адекватно предсказывающую факт и причину расторжения.
Структура и объем работы. Данная работа имеет следующую структуру: введение, три главы, заключение, список литературы, состоящий из 49 наименований, и 9 приложений.
В первой главе «Теоретические предпосылки исследования» содержится краткое описание предметной области страхового дела в целом и страхования жизни в частности. Также дана краткая характеристика существующих предиктивных моделей и сформулирована проблема, решаемая в данной работе.
Во второй главе «Статистические методы моделирования страхования жизни» дано теоретическое описание используемых математических моделей предиктивной аналитики и описательной статистики.
В третьей главе «Моделирование расторжения договоров страхования жизни на основе статистических методов» проиллюстрированы результаты применения предиктивных моделей на практике, проанализировано качество каждой из них и сделан вывод о наиболее подходящей предиктивной модели.
Глава 1. Теоретические предпосылки исследования
1.1 Страхование жизни: характеристика и особенности
страхование жизнь регрессия клиент
Обществом были разработаны два основных способа защиты своих интересов с целью предотвращения убытков от непредвиденных событий: превентивный и репрессивный [2]. Первый способ - превентивный - предполагает предупреждение реализации негативных рисков. Второй способ - репрессивный - связан с минимизацией неблагоприятных последствий непредвиденного события. Несмотря на то, что в рамках страховой деятельность могут финансироваться меры по предотвращению нежелательных событий, её главной целью остается возмещение полученного материального ущерба. В сущности, страхование является особым видом экономической деятельности, связанной с перераспределением риска нанесения ущерба материальным интересам. Данный вид деятельности осуществляется специализированными организациями, обеспечивающими накопление страховых резервов и страховые выплаты при реализации негативных рисков [3].
Федеральный закон «Об организации страхового дела в Российской Федерации» выделяет следующие основные субъекты страхования: страхователи и страховщики [4]. Страхователями являются заключившие со страховщиками договоры страхования юридические лица и дееспособные физические лица. Страховщиками являются страховые организации, которые занимаются следующими активностями:
- оценка страховых рисков;
- получение страховых премий;
- формирование страховых резервов;
- инвестиционная деятельность;
- осуществление страховых выплат.
В рамках страхования выделяется личное страхование - отрасль, обеспечивающая защиту имущественных интересов граждан [4]. Данный сегмент страхования связан с желанием людей иметь семейные сбережения, а также со следующими социальными рисками: наступление смерти кормильца или члена семьи или наступление серьезных проблем со здоровьем.
В свою очередь, страхование жизни является подотраслью личного страхования. Данная процедура предполагает обязательство страховщика заплатить обозначенную сумму денег в случае смерти страхователя или его дожития до определенного возраста в обмен на уплату страховых премий [5]. Иными словами, страховым случаем в страховании жизни считается смерть до окончания действия договора или продолжающаяся жизнь (дожитие) застрахованного после этого срока.
Следует отметить, что страхование жизни является добровольным видом страхования. Данная процедура осуществляется путем оформления договора, который предусматривает обязательство страховщика посредством получения страховых премий, уплачиваемых страхователем, выплатить страховую сумму, если в течение срока действия договора произойдет предусмотренный страховой случай.
Страхование жизни подразумевает разные виды обязательств страховщика перед страхователем. Их можно разделить на две группы: страхование капитала (сумм) и страхование ренты (аннуитетов) [6]. Страхование капиталов предусматривает выплату страховой суммы при дожитии до окончания срока страхования или в случае смерти застрахованного указанным им третьим лицам. Характерной особенностью страхования ренты является обязательство страховщика выплачивать страхователю некоторый доход в фиксированном размере с периодичностью, предусмотренной в договоре страхования.
1.2 Причины расторжения договоров
Удержание клиента, заключившего договор страхования жизни, является актуальной проблемой для страховщика. Прекращение выплаты установленной премии и расторжение договора могут быть обусловлены как личными причинами клиента, так и экономической ситуацией в стране. Однако, такой исход отношений между страхователем и страховщиком не выгоден ни одному из субъектов. Во-первых, клиент, расторгнувший договор, получает выкупную сумму, закрепленную в договоре, и некоторый инвестиционный доход. Однако это, в любом случае, будет меньше той суммы, которая была уплачена страхователем. Во-вторых, досрочный разрыв договора страхования жизни заставляет страховую компанию забирать денежную сумму из страхового резерва и, следовательно, лишаться средств для инвестирования.
Следует отметить, что разрыв договора страхования может происходить по ряду причин, среди которых можно выделить следующие:
- расторжение договора по собственному желанию;
- расторжение договора из-за неуплаты очередного взноса;
- расторжение в связи со смертью страхователя;
- расторжение из-за дожития страхователя до окончания договора;
- отказ от страхования в течение 30 дней;
- отказ от страхования на стадии написания заявления.
Расторжения договора по каждой из вышеописанных причин имеют разное влияние на страховщика. Так, например, если клиент разрывает договор в течение первого месяца его действия или договор страхования жизни срывается на этапе написания заявления, компания не несет больших убытков. Также договор, расторгнутый из-за смерти или дожития клиента, воспринимается как один из ожидаемых и стандартных сценариев развития отношений со страхователем и не создает проблем для работы компании. В то же время, разрыв контракта из-за неуплаты премии или по собственному желанию клиента приводит к описанным ранее негативным последствиям и для страховщика, и для страхователя. Именно поэтому в данной работе исследуются только два данных типа расторжения договоров.
Таким образом, определение среди страхователей тех, кто более всего подвержен риску преждевременного расторжения договора по собственному желания или из-за неуплаты, может уменьшить количество потерянных клиентов. Это, в свою очередь, должно улучшить финансовые показатели страховой компании. После выделения клиентов, находящихся в группе риска, может быть предпринят ряд мер, направленных на их удержание. К таким активностям можно отнести смену валюты премии или «финансовые каникулы», представляющие собой отсрочку очередного страхового взноса без расторжения договора.
1.3 Постановка проблемы
Проблемой, которая решается в данной работе, является недополучение прибыли от выплат страховых премий по договорам, вызванное их досрочным расторжением. Решение проблемы достигается путем разработки модели, прогнозирующей досрочное расторжение договоров страхования жизни. С клиентами, классифицированными как наиболее склонными к расторжению договора страхования жизни, сотрудники компании смогут вести дополнительную работу, направленную на удержание. Подобные активности могут привести к увеличению лояльности клиентов, уменьшению числа расторгнутых договоров и, как результат, повышению прибыльности бизнеса страховой компании.
В качестве информационной базы исследования выступает набор из 15688 договоров страхования жизни одной из крупнейших страховых компаний России за период с 2008 по 2015 год.
В рамках данной модели прогнозируется не только факт расторжения, но и его причина, то есть расторжение договора по собственному желанию или из-за неуплаты страховых взносов. Иными словами, разрабатываемые модели для каждого клиента страховой компании вычисляют как вероятность расторжения по собственному желанию, так и вероятность расторжения из-за неуплаты страховой премии. Данное разделение предсказываемого события, а именно факта расторжения договора, на два различных действия обусловлено следующими соображениями. Клиент, отказывающийся от договора по собственному желанию, и клиент, перестающий платить премию, очевидно, имеют различные мотивы подобного поведения и, следовательно, требуют разного подхода удержания. Дифференциация причин расторжения позволит более грамотно разработать политику поведения с такими клиентами.
Задачами построения подобных предсказательных моделей занимается прогнозная аналитика. Она представляет собой набор статистических методов моделирования, машинного обучения и Data mining, которые изучают исторические данные для прогнозирования будущих событий [7]. Гарет Хершел, директор по исследованиям Gartner: “Прогнозная аналитика помогает связать данные с эффективными действиями, делая достоверные выводы о текущих условиях и будущих событиях” [8]. В сущности, целью предиктивных моделей является формирование оценки вероятности определенного поведения элемента выборки в зависимости от его заданных характеристик.
В рамках данной работы задача построения модели предсказания причины расторжения сводится к двум задачам бинарной классификации. Бинарной называется классификация с зависимой переменной, которая может принимать только два значения. Иными словами, это задача, в рамках которой решается вопрос о принадлежности объекта к одному из двух классов [9]. Строго говоря, предсказание типа расторжения - это задача многомерной классификации, то есть, решающая вопрос о принадлежности к одному из трех и более классов [10]. Это объясняется тем, что зависимая переменная принимает три возможных значения:
Однако существует ряд способов сведения задачи многомерной классификации к бинарной [11]. В данном случае сведение производится следующим образом. Создаются две отдельные зависимые переменные, каждая из которых идентифицирует одну из двух причин расторжения. Переменная является зависимой для предсказания расторжения по желанию, - для предсказания расторжения из-за неуплаты:
В качестве инструментов для построения моделей использовалось программное обеспечение для статистического анализа IBM SPSS Statistics версии 22 [12] и программное обеспечение для прогнозной аналитики IBM SPSS Modeler версии 18.0 [13].
1.4 Методы бинарной классификации
Существует множество методов прогнозного моделирования, наиболее известные из которых следующие:
1) Наивный байесовский классификатор
2) Метод k ближайших соседей
3) SVM
4) Искусственная нейронная сеть
5) Логистическая регрессия
6) COX
7) Пробит-регрессия
8) Метод дерева решений
9) Random forest
Рассмотрим основные характеристики этих методов.
Наивный байесовский классификатор (naive Bayes classifier) - особый случай байесовского классификатора. Обширная группа алгоритмов байесовской классификации основана на принципе максимума экспериментальной вероятности. Суть класса методов заключается в вычислении функций правдоподобия каждого из классов для объекта выборки, по ним рассчитывается экспериментальные вероятности классов. Класс с максимальной вероятностью и считается предсказанным классом объекта [14]. Отличительной особенностью наивного классификатора является дополнительное предположение, что n статистически независимых характеристик описывают объекты выборки , где n - количество характеристик объекта. Функции правдоподобия для каждой из предсказываемых категорий могут быть записаны в виде
где - плотность распределения значений j-го признака для класса y . Эта запись непосредственно выражает предположение о независимости характеристик объекта.
Основные преимущества наивного байесовского классификатора -- простота реализации и невысокая вычислительная сложность алгоритма и при обучении, и при классификации. Недостатком метода является неудовлетворительное качество классификации для многих реальных выборках. Метод чаще применяют в качестве простейшего эталон для сравнения с другими моделями [15].
Метод k ближайших соседей (k-nearest neighbor algorithm) представляет собой примитивный метрический классификатором для определения класса объектов. Алгоритм был предложен в работе Фикса и Ходжеса [16] в 1951 году. Под метрическим классификатором подразумевается алгоритм, построенный на оценке сходства между объектами выборки. В рамках данного метода должна быть введена метрика расстояния между объектами исследуемой выборки , где и - непосредственно наблюдения. Следует отметить, что подбор метрики является одним из важнейших аспектов применения этого алгоритма на практике [17].
Метод ближайших соседей выделяется среди метрических классификаторов тем, что процесс классификации объекта заключается в выборе класса, к которому относятся ближайшие к объекту наблюдения. Более точно, выбирается та категория, которой принадлежит большая часть соседей. На практике количество анализируемых соседних наблюдений устанавливают нечетным, для недопущения двусмысленности в ситуации, когда одинаковое число соседей принадлежат разным классам [18].
Среди преимуществ данного метода можно выделить устойчивость к влиянию выбросов в выборке, что обусловлено малой вероятностью для такого наблюдения оказаться среди k-ближайших соседей, несложная программная реализация и широкий простор для модификации алгоритма с помощью подбора наиболее подходящих метрик для рассматриваемой задачи. В свою очередь, главным недостатком является потребность использовать все наблюдения для классификации одного лишь объекта, что значительно усложняет практическое применение алгоритма [14].
Метод опорных векторов (Support Vector Machine, SVM) - представляет собой класс алгоритмов обучения, который применяется для классификации и регрессионного анализа. Метод был предложен В. Н. Вапником в 1998 году [19]. Каждое наблюдение выборки - это вектор в n-мерном пространстве, где n - это количество характеристик объекта. Суть метода заключается в рассмотрении векторов изучаемой выборки в пространстве с более высокой размерностью и нахождение разделяющей гиперплоскости с максимальным зазором в этом пространстве. По сторонам выделенной на одном из этапов алгоритма гиперплоскости, намечаются две параллельных гиперплоскости. В качестве искомой принимается плоскость, обеспечивающая наибольшее расстояние между двумя параллельными гиперплоскостями. Важное предположение данного метода - это зависимость между небольшой ошибкой классификации и большим расстоянием между гиперплоскостями [20]. Достоинством этого метода является несложная программная реализация и большое количество модификаций для конкретных задач. Серьезным недостатком является сложность настройки.
Искусственная нейронная сеть (ИНС) представляет собой математическую модель, идея которой базируется на организации биологических нейронных сетей -- сетей нервных клеток живого организма [21]. Нейронная сеть является системой искусственных нейронов, которые соединены и взаимодействуют между собой. Элементы нейронной сети могут либо получать сигналы от других элементов, либо посылать сигналы другим. Несмотря на простоту устройства отдельного искусственного нейрона, сеть, состоящая из множества таких элементов способна решать довольно сложные задачи. [22]. Решение конкретных задач, в том числе и классификационных, возможно благодаря обучению нейронной сети на имеющейся выборке. Формально, обучение сводится к поиску коэффициентов связей между нейронами, влияющих на передачу сигналов. На обучающей выборке модель способна выявлять нетривиальные зависимости между входами и выходами, а также выполнять обобщение. Следует отметить, что нейронные сети получили широкое распространение в интеллектуальном анализе данных.
Логистическая регрессия (Logistic regression) - метод классификации, позволяющий оценивать экспериментальные вероятности принадлежности объектов к одному из двух классов. Определение категории проводится с помощью подгонки данных к логистической кривой. Модель была разработана Дэвидом Коксом в 1958 году [23]. В рамках данного метода вычисляется вероятность попадания в искомую категорию, то есть непрерывная переменная со значениями на отрезке {0,1} при любых значениях независимых переменных. Это достигается благодаря применению логистической функции [24]:
где z - взвешенная сумма предикторов. В свою очередь, для поиска весов используется метод максимального правдоподобия, в рамках которого максимизируется функция правдоподобия на обучающей выборке.
В качестве преимуществ модели можно отметить следующие факторы: логистическая регрессия не требует от зависимой или независимых переменных иметь нормальное распределение; логистическая регрессия не ограничивается линейной формой; результаты модели легко интерпретируются. В свою очередь, недостатками модели являются склонность к переобучению и требовательность к размеру выборки для обеспечения стабильной работы алгоритма [14].
Пробит-регрессия (Probit regression) -метод анализа зависимости качественных предсказываемых переменных от множества факторов, основанный на нормальном распределении. Была представлена Честером Блиссом в 1934 году [25]. Пробит-регрессия схожа с логистической регрессией, отличием является иной выбором функции . В пробит-модели принадлежность объекта к классу определяется нормальным распределением. Таким образом, в рамках модели, данная вероятность имеет следующий вид [26]:
где - интегральная функция стандартного нормального распределения, - характеристики объекта, b - весовые параметры модели, которые требуется оценить. По аналогии с логистической моделью, оценка производится методом максимального правдоподобия. Достоинства и недостатки модели аналогичны логистической регрессии.
Регрессия Кокса (Cox regression) или модель пропорциональных рисков -- метод из области анализа наступления события (АНС, Event History Analysis). В рамках данного направления исследуется влияние на риск наступления или не наступления события таких факторов как продолжительность нахождения в группе риска и ряд индивидуальных характеристик объекта. В данном методе риск наступления события характеризует степень правдоподобности его наступления в ближайшем будущем для наблюдений из группы риска. Метод был предложен Дэвидом Коксом в 1972 году [27].
Риск наступления события для i-того объекта вычисляется в соответствии со следующей формулой [28]:
где - базовый риск, одинаковый для всех объектов;
- коэффициенты при предикторах;
- предикторы.
Метод дерева решений (Decision tree) - метод, связывающий известные характеристики объекта с целевым показателем с использованием решающего дерева. Модели, в которых зависимая переменная носит качественный характер, называются классификационными деревьями [29]. На данный момент существует немало различных алгоритмов построения деревьев, среди которых: CART [30], CHAID [31], C4.5 [32], ID3 [29]. На ребрах решающего дерева решения записаны предикторы, от которых зависит предсказываемая переменная, в терминальных узлах указаны ее значения. Другие узлы содержат предикторы, по которым различаются случаи. Для оценки категории, к которой относится новый объект, требуется пройти по дереву от корневого до терминального узла и получить предсказанное значение, соответствующее терминальному узлу. Подобные деревья решений получили широкое распространение в интеллектуальном анализе данных.
К числу достоинств модели можно отнести простоту интерпретации и наглядность, а также возможность работать как с качественными, так и с количественными объясняющими переменными. Среди недостатков модели можно выделить следующие: склонность к переобучению и назначение большего веса тем категориальным атрибутам объекта, которые содержат много значений.
Random forest -- алгоритм машинного обучения, использующий в своей работе ансамбль деревьев решений. Алгоритм был предложен в 2001 году Лео Брейманом [33]. Метод базируется на построении множества деревьев решений, для создания каждого из которых используется фиксированное количество объясняющих переменных, выбираемых случайно. Выбор класса объекта осуществляется путем голосования каждого дерева решений из ансамбля. В целом, вероятность корректной классификации зависит от разнообразия отдельных классификаторов из набора [14]. Среди основных достоинств этого метода можно выделить невысокую требовательность к объему выборки, простоту настройки алгоритма и возможность работать с данными разных типов как категориальными, так и количественными. Основным недостатком модели является требовательность к памяти для хранения модели.
В качестве моделей для разработки классификаторов были выбраны следующие методы:
- Логистическая регрессия - является достаточно распространенным и классическим инструментом для бинарной классификации. В рамках работы может рассматриваться как некая базовая модель. В отличие от наивного байесовского классификатора, модель может на практике давать удовлетворительные результаты, поэтому имеет смысл использовать ее с вышеуказанной целью.
- Регрессия Кокса - алгоритмы в рамках анализа наступления событий изначально разработаны для того, чтобы учитывать длительность нахождения в той или иной категории (расторгнут / не растогнут). Также эти алгоритмы часто используются для моделирования оттока клиентов, что близко к рассматриваемой задаче.
- Random Forest - модель потенциально отличается высокой точностью при правильной настройке, а также не требовательна к величине выборки. Также позволяет работать как с количественными, так и категориальными переменными.
- Нейронная сеть - данная модель выбрана в исполнении многослойного перцептрона. Данная модель архитектуры выбрана, поскольку является довольно простой, однако может справляться с разными классификационными задачами и показывать высокую точность [22].
страхование жизнь регрессии клиент
Глава 2. Статистические методы моделирования страхования жизни
2.1 Методы описательной статистики
Методы описательной статистики позволяют выявить влияние различных параметров договоров и характеристик клиентов на факт расторжения договоров страхования. В описательной статистике можно выделить три основных метода агрегирования данных:
- табличное представление;
- графическое изображение;
- расчет статистических показателей.
В работе для описания статистических характеристик исследуемой базы используются таблицы сопряжённости. С их помощью изучается связь между качественными переменными путем табличного представления их совместного распределения. Также, для поиска связи между категориальными переменными используется критерий согласия Пирсона (критерий согласия ).
Для применения данной процедуры проверки гипотез с использованием критерия согласия предусматривает группирование наблюдений [34]. Более точно, непересекающихся интервалов выделяются на области определения случайной величины со следующими граничными точками . В данном случае является нижней гранью области определения случайной величины, а- верхней.
Далее подсчитывается число выборочных значений, попавших вi-й интервал, и вероятности попадания в интервал
соответствующие теоретическому закону с функцией распределения .
Статистика критерия согласия Пирсона определяется следующим соотношением:
В случае, когда гипотеза об одинаковом распределении величин принимается или, иными словами, отсутствует связь между рассматриваемыми категориальными переменными, вышеуказанная статистика подчинена распределению с степенями свободы.
2.2 Бинарная логистическая регрессия
Логистическая регрессия является одним из примеров множественной регрессии. Целью данного метода является поиск зависимости между предикторами и зависимой переменной. Отличительной особенностью бинарной логистической регрессии является характер предсказываемой переменной - она принимает только два значения. Как правило, это 0 и 1, соответствующие некоторой категории объекта, которую требуется предсказать. Для достижения поставленной цели метод предсказывает не саму категорию для каждого наблюдения, а экспериментальную вероятность попадания в искомую категорию (скажем, это категория, закодированная под значением «1»). Иными словами, логистическая регрессия вычисляет непрерывную величину на отрезке . [23].
Для формирования подобной величины предполагается, что вероятность наступления события, закодированного с помощью значения «1» равна [24]:
где ;
- значения предикторов объекта;
- неизвестные коэффициенты регрессии, нахождение которых и является основной задачей бинарной логистической регрессии;
- зависимость, имеющая форму логистической функции:
В свою очередь, вероятность события, закодированного под значением «0» равна:
.
Для нахождения коэффициентов логистической регрессии требуется провести тренировку модели на обучающей выборке. Обучающая выборка представляет собой набор пар и , где - это фактическое значение предсказываемой переменной, а - это вектор предикторов для конкретного объекта. Таким образом, необходимо сформировать набор обучающих примеров.
Далее на обучающей выборке применяется метод максимального правдоподобия. Метод заключается в подборе таких значений коэффициентов , при которых достигает максимального значение функции правдоподобия на обучающих примерах. Данная процедура выглядит следующим образом:
Следует отметить, что максимизация логарифма функции правдоподобия эквивалентна максимизации её самой:
В данной модели может быть использован метод градиентного спуска с целью нахождения максимального значения функции. В данной процедуре выполняются следующие итерации, начиная с некоторого начального набора значений коэффициентов регрессии :
Интерпретация полученных коэффициентов происходит следующим образом: при увеличении i-го предиктора на 1, шансы того, что произойдет событие, закодированное значением «1» умножаются на . Это обосновывается тем, что шансы равны отношению вероятности наступления события к вероятности ненаступления события, а вероятность наступления равна .
Важным этапом построения модели бинарной логистической регрессии является оценка качества подгонки. Следует отметить, что в аналогичной задаче в линейной регрессии используется коэффициент детерминации . Для бинарной логистической регрессии разработан ряд показателей для оценки качества подгонки, в том числе несколько псевдо-:
1) - 2 Log Правдоподобие );
2) Кокса и Снелла (Cox, Snell, );
3) Найджелкерка (Nagelkerke, ).
Показатель вычисляется по следующей формуле [35]:
Данный показатель распределен асимптотически как . Меньшее значение соответствует лучшему качеству подгонки, оно уменьшается с увеличением правдоподобия модели.
Еще одним показателем качества модели является Кокса и Снелла, рассчитываемый по следующей формуле:
где и - значения правдоподобия соответственно для построенной в рамках логистической регрессии модели и нулевой модели,
- количество наблюдений.
Основным недостатком показателя Кокса и Снелла является то, что он не превышает 0.75 [36].
Еще один псевдо - это Найджелкерка, представляющий собой модифицированную версию Кокса и Снелла. Отличие заключается в том, что значение показателя может достигать 1 [37]. Вычисляется Найджелкерка следующим образом:
2.3 Регрессия Кокса
Регрессия Кокса (Cox regression), также называемая моделью пропорциональных рисков, -- метод из области анализа наступления события (АНС, Event History Analysis). Основная задача, которая решается в рамках данного направления - это изучение влияния на риск наступления или не наступления события таких факторов как продолжительность нахождения в группе риска и ряд индивидуальных характеристик объекта.
В анализе наступления событий часто используется понятие цензурированные данные. Этот термин был впервые использован в работе Hald в 1949 году [38]. Цензурированными (неполными) называют данные, в которых отсутствует информация о времени окончания анализируемого процесса. В свою очередь, нецензурированные (полные) данные содержат полную информацию о времени завершения процесса.
Цензурированные данные типичны, когда исследуется время до наступления определённого события и время исследований ограничено. Цензурированные наблюдения встречаются во многих областях.
В данном методе риск наступления события характеризует степень правдоподобности его наступления в ближайшем будущем для наблюдений из группы риска. Метод был предложен Дэвидом Коксом в 1972 году [39].
Риск наступления события для i-того объекта вычисляется в соответствии со следующей формулой [28]:
или
где - базовый риск, одинаковый для всех объектов;
- коэффициенты при предикторах;
- предикторы.
Базовый риск -- риск наступления события для объекта из референтной группы (для которого все независимые переменные равны нулю). Коэффициенты отражают влияние каждой из независимых переменных (регрессоров) на функцию риска: при увеличении на единицу и фиксированных значениях остальных регрессоров, риск наступления события возрастает в раз.
2.4 Random Forest
Random Forest - это алгоритм машинного обучения, использующий в своей работе ансамбль деревьев решений. Алгоритм был предложен в 2001 году Лео Брейманом [33]. Метод базируется на построении множества деревьев решений, для создания каждого из которых используется фиксированное количество объясняющих переменных, выбираемых случайно.
В данной методике используется термин ансамбль деревьев. В сущности, он является ансамблем классификаторов, каждый из которых может принимать решение об отнесении объекта к одной из изучаемых категорий. Итоговый результат получается с помощью учета решения каждого из классификаторов. Модель случайного леса использует в качестве такого базового классификатора деревья решений, которые строятся определенным образом.
Рассмотрим алгоритм работы данного метода. Набор обучающих примеров имеет размер N, количество характеристик наблюдения равно M, и задан параметр m равный . Каждое из случайных деревьев генерируется независимо по следующему алгоритму [14]:
Шаг 1. Из набора примеров генерируется подвыборка размером N. Это достигается благодаря случайным повторениям некоторых обучающих примеров.
Шаг 2. На этом этапе строится непосредственно дерево решений. Как говорилось выше, для его построения используются не все предикторы, а лишь их фиксированное число. В качестве этого показателя используется параметр m, заданный выше. Из всех случайным образом выбираются m предикторов, на основе которого и строится это дерево. В ходе создания решающего дерева ранжирование выбранных признаков может производиться с помощью разных критериев таких как критерий Джини (Gini) [40] или критерий прироста информации (IG, Information gain) [41].
Шаг 3. Дерево строится до тех пор, пока все элементы выборки не войдут в его терминальные узлы. Что характерно, построенное дерево не подвергается процедуре отсечения ветвей.
В рамках построения модели оптимальное число деревьев определяется в соответствии с условием минимизации ошибки на тестовой выборке. После того, как все деревья в ансамбле построены, для объектов может быть построен прогноз наиболее вероятного события. Каждое из деревьев решений делает свой прогноз о категории, к которой следует отнести наблюдение. В качестве результата по данному объекту выбирается та категория, которая была предсказана большим числом деревьев.
Основная причина популярности этого метода и интереса к нему заключается в том, что ансамбли позволяют достичь большей точности, чем каждое из деревьев по отдельности. А для достижения высокой точности модели главными условиями являются, во-первых, точность самих деревьев, что очевидно, а во-вторых, разнообразие сгенерованных классификаторов, что выражается в совершении ошибок на разных обучающих примерах.
2.5 Моделирование на основе нейронных сетей
Существует немало разновидностей нейронных сетей, для исследования был выбрана модель перцептрона, что обусловлено его возможностями, гибкостью и легкостью использования. Перцептрон базируется на математической модели восприятия информации мозгом, предложенная Фрэнком Розенблаттом в 50е годы. С точки зрения математики, задача, которую решает перцептрон - это разделение нелинейных множеств линейно [21].
Перцептрон состоит из трех типов элементов: S-элементов, -элементови одного -элемента [22]. -элементы-- это слой сенсоров, или рецепторов. -элементы называются ассоциативными, потому что каждому такому элементу, как правило, соответствует целый набор (ассоциация) -элементов. Когда на входе -элемента количество сигналов от -элементов превышает некоторую величину он активизируется. Сигналы от возбудившихся -элементов, в свою очередь, передаются в сумматор , причём сигнал от -го ассоциативного элемента передаётся с коэффициентом . Этот коэффициент называетсявесом связи.
-элементом вычисляется сумма значений входных сигналов, помноженных на веса. -элемент, а вместе с ним и элементарный перцептрон, выдаёт , если линейная форма превышает порог , иначе на выходе будет . Математически, функцию, реализуемую -элементом, можно записать так:
Нахождение весовых коэффициентов связей и составляет обучение элементарного перцептрона. Веса связей (которые могут принимать значения ) и значения порогов -элементов выбираются случайным образом в самом начале и затем не изменяются.
После того, как перцептрон был обучен, он может распознавать объекты, которые не встречались ему ранее в обучающей выборке. Распознавание заключается в присвоении новому объекту один из двух классов принадлежности. Функционирование перцептрона в данном режиме состоит в следующем: при предъявлении объекта, возбудившиеся -элементы передают сигнал -элементу, равный сумме соответствующих коэффициентов . Объект относится к первому классу, если полученная сумма положительна. В противном случае - объект относится ко второму классу.
Многослойный перцептрон -- частный случай вышеописанной модели, в котором все слои обучаются одним алгоритмом обратного распространения ошибки [42]. Главной особенностью данной модели является присутствие в её структуре нескольких обучающих слоев (двух или трех). Чтобы получить линейную разделимость, в теории достаточно и одного скрытого слоя для перекодировки входного представления. Из этого следует, что нет необходимости в большом количестве обучаемых слоев.
2.6 Анализ качества бинарных классификаторов
ROC-кривая (Receiver Operator Characteristic) - кривая, которая наиболее часто используется для представления результатов бинарной классификации. ROC-кривая показывает зависимость количества верно классифицированных положительных примеров от количества неверно классифицированных отрицательных примеров [43]. В бинарной задаче классификации на выходе может наблюдаться четыре различных ситуации:
- Если результат классификации положительный, и истинное значение тоже положительное, то речь идет об истинно-положительном значении (true-positive, TP)
- Если результат классификации положительный, но истинное значение отрицательное, то речь идет о ложно-положительном значении (false-positive, FP)
- Если результат классификации отрицательный, и истинное значение тоже отрицательное, то речь идет об истинно-отрицательном значении (true-negative, TN)
- Если результат классификации отрицательный, но истинное значение положительно, то речь идет о ложно-отрицательном значении (false-negative, FN)
При анализе чаще оперируют не абсолютными показателями, а относительными - долями, выраженными в процентах:
- Доля истинно положительных примеров (True Positives Rate):
- Доля ложно положительных примеров (False Positives Rate):
В ROC-анализе также используются понятия чувствительность и специфичность модели, которыми определяется объективная ценность любого бинарного классификатора:
- Чувствительность (Sensitivity) - это доля истинно положительных случаев:
- Специфичность (Specificity) - доля истинно отрицательных случаев, которые были правильно идентифицированы моделью:
Модель с высокой чувствительностью часто дает истинный результат при наличии положительного исхода (обнаруживает положительные примеры). Наоборот, модель с высокой специфичностью чаще дает истинный результат при наличии отрицательного исхода (обнаруживает отрицательные примеры).
ROC-кривая получается следующим образом:
1. Для каждого значения порога отсечения, которое меняется от 0 до 1 с шагом , рассчитываются значения чувствительности и специфичности .
2. Строится график зависимости: по оси откладывается чувствительность , по оси - (сто процентов минус специфичность).
Для идеального классификатора график ROC-кривой проходит через верхний левый угол, где доля истинно положительных случаев составляет 100% или 1.0, а доля ложно положительных примеров равна нулю. Поэтому чем ближе кривая к верхнему левому углу, тем выше предсказательная способность модели. При визуальной оценке ROC-кривых расположение их относительно друг друга указывает на их сравнительную эффективность. Кривая, расположенная выше и левее, свидетельствует о большей предсказательной способности модели.
Визуальное сравнение кривых ROC не всегда позволяет выявить наиболее эффективную модель. Еще одним методом сравнения ROC-кривых является оценка площади под кривыми. Теоретически она изменяется от до , но, поскольку модель всегда характеризуются кривой, расположенной выше положительной диагонали, то обычно говорят об изменениях от ("бесполезный" классификатор) до ("идеальная" модель). Эта оценка может быть получена непосредственно вычислением площади под многогранником, ограниченным справа и снизу осями координат и слева вверху - экспериментально полученными точками. Численный показатель площади под кривой называется (Area Under Curve) и его можно вычислить по следующей формуле:
С некоторыми допущениями можно считать, что чем больше показатель , тем лучшей прогностической силой обладает модель. Однако следует учитывать, что:
- показатель предназначен скорее для сравнительного анализа нескольких моделей;
- не содержит никакой информации о чувствительности и специфичности модели.
Помимо вышеуказанных показателей для оценки классификаторов используются Точность (precision) и полнота (recall) [44]. На практике возможно как их самостоятельное использование, так и в качестве базиса для составления других метрик, таких как F-мера
Эти значения легко рассчитать следующим образом [45]:
Иногда бывает полезно объединить точность и полноту в одной усреднённой величине. Для этой цели среднее арифметическое не подходит, так как, например, поисковой системе достаточно вернуть вообще все документы, чтобы обеспечить равную единице полноту при близкой к нулю точности, и среднее арифметическое точности и полноты будет не меньше 1/2. Среднее гармоническое не обладает этим недостатком, поскольку при большом отличии усредняемых значений приближается к минимальному из них и вычисляется по следующей формуле.
Помимо оценки качества построенного бинарного классификатора важной задачей является выбор правильного порога отсечения (cutoff value). Как правило, в алгоритмах классификации по умолчанию установлен порог 0.5, что означает следующее: если вероятность попадания в целевую категорию больше или равна 50%, то его следует отнести к этой категории, в противном случае - ко второй категории. Однако, очевидно, что изменение этого порога может изменить и долю верных предсказаний, и соотношение ошибок первого и второго родов.
Существуют разные подходы к выбору оптимального порога, например использование статистики Юдена [46], минимизация взвешенных ошибок неправильной классификации [47] или использование показателя F-мера. В общем случае выбор подхода зависит от относительных цен ошибок первого и второго родов. В данной ситуации в качестве критерия оптимальности для порога отсечение было выбрано равенство ошибок первого и второго рода. Иначе, равенство долей истинно положительных и истинно отрицательных предсказаний. Это обусловлено тем, что, несмотря на необходимость выявлять среди клиентов тех, кто потенциально готов разорвать договор, следует учитывать то, что удержание клиента стоит определенных средств для компании. Именно поэтому должен соблюдаться баланс между ошибками первого и второго родов.
На практике данная задача сводится к поиску порога отсечения, который обеспечивает минимальную разницу между долями истинно положительных и истинно отрицательных предсказаний. Для этого проводится эксперимент, в рамках которого на построенных моделях проверяются разные пороги отсечения от 0 до 1 с шагом в 0.01. Для каждого порога вычисляются характеристики точности модели, и далее выбирается тот порог, который обеспечивает минимальную разницу между долями истинно положительных и истинно отрицательных прогнозов.
2.7 Проблема несбалансированных выборок
Использование несбалансированных обучающих выборок может привести к тому, что модель будет склонна большую часть наблюдений классифицировать как представителя наибольшей категории [48]. Часто для решения подобной проблемы используют один из двух методов: увеличение численности меньшего класса (oversampling) и уменьшение численности наибольшего класса (undersampling).
Рассмотрим оба этих метода. В рамках метода undersampling обучение проводится на всех наблюдениях из меньшего класса и на отобранных наблюдениях большего класса [49]. Чаще всего количество отобранных объектов большего класса равняется по величине количеству элементов наименьшего класса. Самым распространенным и простым методом отбора элементов большего класса является случайный выбор наблюдений. При уменьшении большего класса происходит существенное сокращение тренировочной базы. Следствие этого - сокращение времени работы классификатора. Однако это может вызвать потерю информации и, как результат, уменьшить точность классификатора.
Метод увеличения меньшего класса (oversampling) заключается в добавлении в тренировочную базу его дублей, выбранных случайным образом [49]. Преимущество такого метода заключается в отсутствии потерь информации. Тем не менее, недостатком является значительное увеличение тренировочной базы, что ведет к увеличению времени работы алгоритма классификации и требуемых ресурсов компьютера.
Для данного исследования был выбран метод увеличения меньшей выборки. Это обусловлено, во-первых, тем, что при таком подходе не теряется информация, а, во-вторых, требуемые ресурсы компьютера в данном исследовании не столь критичны, поскольку даже в увеличенном виде обучающая выборка не будет превышать 25000 наблюдений. Следует уточнить, что увеличение меньшего класса производится на обучающей выборке, а тестовая выборка остается с прежними пропорциями предсказываемых классов.
Глава 3. Моделирование расторжения договоров страхования жизни на основе статистических методов
3.1 Подготовка информационной базы исследования
В работе используется информационная база, состоящая из портфеля договоров страховой компании. База содержит в себе данные о клиентах: их социо-демографические показатели и характеристики заключенных со страховой компанией договоров. Полный список переменных, содержащихся в базе, приведен в Приложении 1. Рассмотрим некоторые важные для исследования показатели. База содержит следующие атрибуты, имеющие отношение к социально-демографическим показателям: пол, возраст, семейное положение, должность, сфера занятости и город заключения договора. Также база содержит следующие атрибуты договоров: дата начала и окончания сотрудничества, факт и причина расторжения, страховой продукт, валюта договора, периодичность оплаты страховой премии, срок договора, величина премии и некоторые другие денежные атрибуты. Кроме того, на основе количественных переменных, описывающих возраст, срок договора, первоначальную выплачиваемую премию, текущую премию, итоговое количество денег, полученное от клиента, были созданы интервальные категориальные переменные.
Следует отметить, что в исследуемой базе не все записи о договорах содержат полный набор данных, описанный выше. Так, например, в 64% наблюдений отсутствует информация о сфере занятости клиента. Кроме того, данные о семейном положении и должности отсутствуют в 9 и 13% случаев соответственно. Так как отсутствующие значения могут исказить результаты моделирования, переменная, описывающая сферу деятельности клиента, исключена из числа потенциальных предикторов. Однако семейное положение и должность клиента являются немаловажными социально-демографическими характеристиками, поэтому переменные не исключены из рассмотрения. Тем не менее, в связи с отсутствующими значениями объем информационной базы уменьшился с 15688 до 13219 записей.
Для осуществления предсказания расторжения контракта по желанию клиента или неуплате были созданы две зависимые переменные, каждая из которых принимала значение 1, если клиент разорвал контракт по одной из указанных причин, и 0 - в противном случае.
В информационной базе наблюдается следующее распределение значений зависимых переменных:
- у 7% клиентов договор расторгнут по желанию, у 93% - действителен или расторгнут по иной причине;
- у 18% клиентов договор расторгнут из-за неуплаты, у 82% - действителен или расторгнут по иной причине.
Таким образом, рассматриваемые выборки несбалансированы, т.е. одна категория изучаемой переменной встречается гораздо чаще, чем другая. Для преодоления данной проблемы используется метод увеличения наименьшей группы (oversampling). Случайным образом выбираются записи с расторжением по одной из двух исследуемых причин и копируются до уменьшения разрыва между меньшей и большей категориями. Данный метод используется для формирования обучающей выборки, в то время как тестовая выборка сохраняет оригинальное распределение категорий.
Для прогнозирования расторжения договора страхования по желанию клиента были сформированы обучающая и тестовая выборки, характеристики которых указаны в таблице 1. В обучающей выборке записи о договорах, расторгнутых по собственному желанию клиента, составляют 48.7%. В тестовой выборке этот показатель составляет 6.7%, что приближено к показателю оригинальной информационной базы.
В свою очередь, для прогнозирования расторжения из-за неуплаты были сформированы обучающая и тестовая выборки, характеристики которых указаны в таблице 2. В обучающей выборке записи о договорах, расторгнутых из-за неуплаты, составляют 51.2%. В тестовой выборке этот показатель составляет 16.9%, что приближено к показателю оригинальной информационной базы.
Таблица 1. Распределение типов договоров по статусу в обучающей и тестовой выборках (предсказание расторжения договора по желанию клиента)
Подобные документы
Виды долгосрочного и краткосрочного страхования. Моделирование портфеля договоров страховой компании, состоящей из групп договоров, с помощью программы в среде Delphi. Принципы назначения страховых премий. Актуарная современная стоимость обязательств.
дипломная работа [2,2 M], добавлен 23.05.2014Нормативно-правовое регулирование страхования жизни в России. Проблемы и перспективы развития гражданского законодательства страхования жизни в государстве. Составление договоров личного страхования от несчастных случаев. Обзор судебной практики.
дипломная работа [246,4 K], добавлен 20.07.2014Анализ страхования в истории правовой системы и жизни общества. Особенности и отрицательные стороны страхования в России. Исследование возможности осуществления страхования на основании двух видов договоров – имущественного и личного страхования.
курсовая работа [43,2 K], добавлен 10.01.2017Изучение экономической и социальной сущности личного страхования; его виды. Характеристика современного состояния рынка личного страхования в России; его проблемы и перспективы. Особенности заключения договоров страхования жизни и здоровья человека.
курсовая работа [55,7 K], добавлен 09.09.2014Общие понятия и роль жилищного страхования. Особенности имущественного страхования. Государственное регулирование страхования жилья. Порядок заключения и ведения договоров. Актуальные проблемы страхования жилья в России. Анализ международного опыта.
дипломная работа [2,3 M], добавлен 07.11.2012Содержание страхования от несчастных случаев, его основные подвиды и их условия. Определение тарифов по страхованию жизни. Особенности заключения и условия договоров личного страхования. Основные критерии классификации личного страхования и его значение.
презентация [584,6 K], добавлен 08.03.2013Инвестиции как объект страхования. Виды договоров страхования инвестиций в зависимости от различных этапов инвестиционной деятельности. Перспективы и тенденции развития, меры по развитию системы страхования финансовых рисков в Российской Федерации.
курсовая работа [46,5 K], добавлен 12.05.2011Правовая природа договора страхования, его признаки как консенсуального и реального договора в гражданском праве. Условия и порядок заключения, механизмы и процедура составления документа. Общая характеристика различных видов договоров страхования.
реферат [24,4 K], добавлен 08.02.2012Социально-экономическая сущность страхования, его правовые основания. Особенности процесса страхования в Российской Федерации, порядок заключения договоров. Виды, отрасли, подотрасли, принципы классификации по объектам страхования и роду опасностей.
дипломная работа [57,5 K], добавлен 06.12.2013Экономическая сущность страхования: предоставление защиты от возможных опасностей природного, техногенного, экономического, социального, экологического происхождения. Виды личного страхования. Методы и принципы расчета страховой премии ООО "Росгосстрах".
курсовая работа [335,7 K], добавлен 15.01.2015