Прогнозирование преждевременного расторжения договоров страхования жизни
Методы прогнозного моделирования. Влияние различных параметров договоров и характеристик клиентов на факт расторжения договоров страхования. Построение моделей разрыва контракта по желанию клиента и из-за неуплаты с помощью логистической регрессии.
Рубрика | Банковское, биржевое дело и страхование |
Вид | дипломная работа |
Язык | русский |
Дата добавления | 31.10.2016 |
Размер файла | 1,9 M |
Отправить свою хорошую работу в базу знаний просто. Используйте форму, расположенную ниже
Студенты, аспиранты, молодые ученые, использующие базу знаний в своей учебе и работе, будут вам очень благодарны.
Выборка |
Тип договора |
Количество наблюдений |
Процент от выборки |
|
Обучающая выборка |
Действующие |
6458 |
33.5 |
|
Расторгнутые по желанию клиентов |
9399 |
48.7 |
||
Расторгнутые из-за неуплаты |
1873 |
9.7 |
||
Прочие причины расторжения |
1560 |
8.1 |
||
Всего |
19290 |
100.0 |
||
Тестовая выборка |
Действующие |
1599 |
61.4 |
|
Расторгнутые по желанию клиентов |
175 |
6.7 |
||
Расторгнутые из-за неуплаты |
439 |
16.9 |
||
Прочие причины расторжения |
392 |
15.0 |
||
Всего |
2605 |
100.0 |
Таблица 2. Распределение типов договоров по статусу в обучающей и тестовой выборках (предсказание расторжения договора из-за неуплаты)
Выборка |
Тип договора |
Количество наблюдений |
Доля выборки |
|
Обучающая выборка |
Действующие |
6458 |
36.1 |
|
Расторгнутые по желанию клиентов |
723 |
4.0 |
||
Расторгнутые из-за неуплаты |
9170 |
51.2 |
||
Прочие причины расторжения |
1560 |
8.7 |
||
Всего |
17911 |
100.0 |
||
Тестовая выборка |
Действующие |
1599 |
61.4 |
|
Расторгнутые по желанию клиентов |
175 |
6.7 |
||
Расторгнутые из-за неуплаты |
439 |
16.9 |
||
Прочие причины расторжения |
392 |
15.0 |
||
Всего |
2605 |
100.0 |
3.2 Структура страхового портфеля
Рассмотрим основные социо-демографические показатели. Среди клиентов больше мужчин - 70%. Как показано на рисунке 1, с точки зрения семейного положения, три четверти страхователей женаты или замужем, а 22% холосты. Почти половина страхователей занимает высокую должность и занимается стратегическим руководством. Треть находится на должности специалистов.
Рисунок 1. Распределение семейного положения и должности клиента в выборке
Больше всего договоров (около 70%) заключается клиентами в возрасте от 35 до 60 лет. Около 20% договоров заключаются в более раннем возрасте, оставшиеся - в позднем (рисунок 2).
Рисунок 2. Распределение возраста клиента на момент заключения договора
Рассмотрим показатели, имеющие отношение к договорам страхования жизни. Среди портфеля договоров 61% являются действующими. Среди оставшихся 39% расторгнутых договоров соответственно 7% и 18% занимают случаи расторжения по желанию и из-за неуплаты. Из оставшихся - 15% составляют договоры, расторгнутые в течение 30 дней (58%), отказ клиента от страхования (32%), расторгнутые из-за дожития (7%) и самая малочисленная категория - смерть застрахованного (2%) (рисунок 3).
Рисунок 3. Распределение типов договоров страхования по статусу
Абсолютное большинство (83%) клиентов выбирает договор с регулярной оплатой премии. Из них две трети платят раз в год, четверть - раз в квартал, и оставшиеся - раз в полгода (рисунок 4).
Половина всех договоров заключается с условием оплаты в рублях, треть - в долларах США, и оставшиеся - в евро (рисунок 5).
Ежегодная премия, которую клиенты выплачивают страховой компании, варьируется от нескольких десятков тысяч рублей, до нескольких десятков миллионов рублей. Наиболее многочисленная категория - люди, платящие от 50 до 100 тысяч рублей в год - составляет около 20%. В целом, от 50 до 500 тысяч рублей платят в год около 54% страхователей. Примерно четверть платит больше, так например 1.6% платят от 5 до 10 миллионов, а 0.7% платит более 10 миллионов рублей в год (рисунок 6).
Рисунок 4. Распределение периодичности оплаты договоров страхования
Рисунок 5. Распределение валюты договоров и типа страхового продукта среди клиентов
На рисунке 7 проиллюстрирована длительность сотрудничества со страховой компанией тех клиентов, которые впоследствии разорвали договор. Так, около 60% прекращают платить взносы в первые два года, а примерно 30% перестают быть клиентами компании с третьего по пятый год.
Рисунок 6. Распределение размера уплачиваемой премии среди клиентов
Рисунок 7. Распределение времени сотрудничества с клиентами, отказавшимися от услуг страховой компании
Рассмотрим более подробно длительность сотрудничества с ушедшими клиентами в зависимости от причины расторжения. Как видно на рисунке 8, из-за неуплаты клиенты уходят преимущественно в первые три года действия договора (почти 93%). У тех, кто уходит по собственному желанию, картина противоположная: разрывать договоры преимущественно начинают на четвертом году (три четверти клиентов).
Рисунок 8. Распределение времени сотрудничества с клиентами, отказавшимися от услуг страховой компании, для разных причин расторжения договора
Проанализировав таблицы сопряженности типов расторжения и качественных характеристик, можно сделать вывод о наличии связи. С точки зрения критерия согласия Пирсона, на уровне значимости 0,01 было установлено наличие связи между причиной расторжения и следующими показателями: страховой продукт, семейное положение, должность, сфера занятости клиента, город заключения договора, категория длительности договора, валюта договора, периодичность оплаты премии и возрастная категория начала договора. Лишь такой показатель как пол клиента показал наличие связи на уровне 0,034 (). Иными словами, каждая из рассмотренных переменных имеет свое распределение для разных причин расторжения договоров. Рассмотрим подробнее эти связи.
Говоря о группе страхового продукта, больше всего людей, замеченных в неуплате, находится в сегменте Премиум. Там же больше всего и расторжений по желанию (рисунок 9). Меньше всего расторжений обоих типов среди владельцев страхового тарифа Комфорт.
Рассмотрим зависимость причин расторжения от семейного положения клиентов (рисунок 10). Среди разведенных клиентов около половины разрывают договор. Наименьшая доля расторжений из-за неуплаты наблюдается среди вдовцов (9%). Доля расторжений по желанию меньше всего среди клиентов, состоящих в браке (6%).
Рисунок 9. Распределение статусов договоров для разных типов страхового продукта
Рисунок 10. Распределение статусов договоров для разных категорий семейного положения
Анализируя расторжения по городам (рисунок 11), можно заметить следующее. Самая большая доля расторгнутых из-за неуплаты договоров - в Нижнем Новгороде (27%), самая низкая - в Москве (17%). По желанию разрывают договор чаще в Самаре и Волгограде - по 8% в каждом городе. Реже всего договор разрывают по этой причине в Уфе - лишь 2%.
Рисунок 11. Распределение статусов договоров для разных городов
Больше всего расторжений по обеим причинам среди тех клиентов, кто выплачивает премии в рублях (рисунок 12) - суммарно 31%. Меньше всего расторжений среди тех, у кого в договоре указана валюта - доллар США (суммарно 16%).
Рисунок 12. Распределение статусов договоров для разных валют оплаты премии
Связь между периодичностью оплаты и причиной расторжения выглядит следующим образом (рисунок 13). Больше всего расторжений среди клиентов, платящих раз в квартал (36% - а из-за неуплаты, 11% - по желанию). Среди тех, кто платит единовременно, меньше всего расторжений - лишь 2% договоров расторгаются по желанию.
Рисунок 13. Статусы договоров для разной периодичности выплаты премий
Как видно на рисунке 14, с увеличением возраста уменьшается и доля расторжений обоих типов. Так, например, в самой юной возрастной категории - от 18 до 24 лет - расторгается 43% договоров по интересующим нас причинам. К самой старшей категории этот показатель уменьшается до 2%.
Рисунок 14. Распределение статусов договоров для разных возрастных категорий клиента
3.3 Модели расторжения договоров страхования жизни
3.3.1 Бинарная логистическая регрессионная модель
Модель предсказания расторжения по желанию клиента
Для построения модели был использован метод пошагового ввода переменных. Процедура отбора переменных состояла из 14 шагов, на каждом из которых добавлялась переменная. В Приложении 2 представлены оценки качества моделей, построенных на каждом из шагов: показатель , Кокса и Снелла() и Найджелкерка (). По каждому из показателей можно заметить улучшение модели с каждым шагом. Так, уменьшился с 25 228 до 22904. В свою очередь, и увеличились соответственно с 0.075 до 0.180 и с 0.100 до 0.240. Тем не менее, показатели и не превышают 0.25, что говорит о невысоком качестве подгонки. В Приложении 3 показан список итоговых предикторов и их коэффициентов .
Точность финальной модели, определенной на 14 шаге составляет 69.1% (69% верных предсказаний для случаев разрыва контракта по желанию и 69.3% - для остальных). Данный показатель вычисляется для значения порога отсечения, равного 0.5. На рисунке 15 проиллюстрировано изменение точности моделей для каждого из 14 шагов. Максимальная доля верно предсказанных контрактов, расторгнутых по желанию, составляет 75.1% и достигается на первом шаге. Аналогичный показатель для остальных договоров страхования - 70.1% - достигается на шестом шаге. Однако этим моделям соответствует меньшая точность и больший разброс в долях верных предсказания двух категорий, чем финальной модели.
На рисунке 16 изображено распределение предсказанной вероятности расторжения договора по желанию с разделением по фактическому значению зависимой переменной. Из графика видно, что распределения сильно пересекаются, о чем и свидетельствуют их статистические показатели. Средняя предсказанная вероятность для расторгнутых по желанию договоров равна 0.58 при стандартном отклонении в 0.18. Для другой категории эти показатели соответственно 0.40 и 0.21.
Рисунок 15. Точность построенных моделей для каждого шага выбора переменных (логистическая регрессия, предсказание расторжения по желанию клиента)
На рисунке 17 изображена ROC-кривая, показатель AUC которой равен 0.747 и значим на уровне 0.001.
Рисунок 16. Распределение предсказанной вероятности разрыва договора по желанию (логистическая регрессия, обучающая выборка)
Рисунок 17. ROC-кривая для предсказанной вероятности разрыва договора по желанию (логистическая регрессия, обучающая выборка)
Для того чтобы выбрать оптимальный порог отсечения с точки зрения минимизации разницы между ошибками первого и второго родов, был построен график, отражающий зависимость показателей точности модели от порога отсечения (рисунок 18). Показатели долей истинно положительных и истинно отрицательных имеют минимальную разницу при пороге отсечения 0.5. Данный порог совпадает со значением по умолчанию, поэтому точность модели равняется ранее озвученной точности:
- доля истинно положительных предсказаний - 69.0%;
- доля истинно отрицательных предсказаний - 69.3%;
- доля верно предсказанных наблюдений - 69.1%.
Точность модели на тестовой выборке составила 68% (68.6% верных предсказаний для расторгнутых по желанию договоров и 68% - для остальных). График предсказанных вероятностей для тестовой выборки представлен на рисунке 19. Выборочные характеристики аналогичны характеристикам распределения для обучающей выборки.
Рисунок 18. Зависимость параметров точности модели от порога отсечения (логистическая регрессия, предсказание расторжения по желанию клиента)
На рисунке 20 изображена ROC-кривая для тестовой выборки, показатель которой равен 0.722, т.е. на 0.025 меньше, чем для обучающей выборки. Показатель значим на уровне 0.001.
Рисунок 19. Распределение предсказанной вероятности разрыва договора по желанию (логистическая регрессия, тестовая выборка)
Рисунок 20. ROC-кривая для предсказанной вероятности разрыва договора по желанию (логистическая регрессия, тестовая выборка)
Модель предсказания расторжения из-за неуплаты
Для построения модели был использован метод пошагового ввода переменных. Процедура отбора переменных состояла из 15 шагов, на каждом из которых добавлялась переменная. В Приложении 4 представлены оценки качества моделей, построенных на каждом из шагов. По каждому из показателей можно заметить улучшение модели с каждым шагом. Так, например, показатель улучшается от 19908 до 16371 за 15 шагов. Показатели и увеличиваются соответственно с 0.240 и 0.320 до 0.376 и 0.502, что говорит об умеренно хорошем качестве подгонки (значительно превышают аналогичные показатели для модели, предсказывающей расторжение договора страхования по желанию клиента). В Приложении 5 показан список итоговых предикторов и их коэффициентов и.
Точность финальной модели, определенной на 15 шаге, составляет 80.1% (85.7% верных предсказаний для случаев разрыва контракта из-за неуплаты и 74.1% - для остальных). Данный показатель вычисляется для значения порога отсечения, равного 0.5. На рисунке 21 проиллюстрировано изменение точности моделей для каждого из 15 шагов. На всех этапах доля верно предсказанных случаев расторжения из-за неуплаты была выше, чем у другой категории. Начиная с пятого шага, общая точность моделей была около 80%.
Рисунок 21. Точность построенных моделей для каждого шага выбора переменных (логистическая регрессия, предсказание расторжения из-за неуплаты)
На рисунке 22 изображено распределение предсказанной вероятности расторжения договора из-за неуплаты с разбивкой на фактическое значение зависимой переменной. На графике видно, что для расторгнутых из-за неуплаты договоров предсказанная вероятность гораздо больше, чем у другой категории. Средняя предсказанная вероятность для расторгнутых из-за неуплаты договоров равна 0.71 при стандартном отклонении в 0.20. Для другой категории эти показатели соответственно 0.31 и 0.28.
На рисунке 23 изображена ROC-кривая, показатель AUC которой равен 0.858 и значим на уровне 0.001. Данное значение AUC говорит о довольно хорошем качестве модели.
Рисунок 22. Распределение предсказанной вероятности разрыва договора из-за неуплаты (логистическая регрессия, обучающая выборка)
Для того чтобы выбрать оптимальный порог отсечения с точки зрения минимизации разницы между ошибками первого и второго родов, был построен график, отражающий зависимость показателей точности модели от порога отсечения (рисунок 24). Показатели долей истинно положительных и истинно отрицательных имеют минимальную разницу при пороге отсечения 0.58. Модель с данным порогом отсечения имеет следующие показатели точности:
Рисунок 23. ROC-кривая для предсказанной вероятности разрыва договора из-за неуплаты (логистическая регрессия, обучающая выборка)
Рисунок 24. Зависимость параметров точности модели от порога отсечения (логистическая регрессия, предсказание расторжения из-за неуплаты)
- доля истинно положительных предсказаний - 79.3%;
- доля истинно отрицательных предсказаний - 79.4%;
- доля верно предсказанных наблюдений - 79.4%.
На тестовой выборке модель показала точность 80.0%: 82.0% - верных предсказаний для расторгнутых из-за неуплаты и 79.6% - для остальных видов договоров.
График предсказанных вероятностей для тестовой выборки представлен на рисунке 25. Выборочные характеристики аналогичны характеристикам предыдущего распределения для обучающей выборки. Выборки разных фактических значений зависимой переменной так же разделены, но пересекаются таким образом, что cutoff value отсекает около пятой части действующих или расторгнутых по иной причине договоров и классифицирует их как расторгнутые из-за неуплаты.
Рисунок 25. Распределение предсказанной вероятности разрыва договора из-за неуплаты (логистическая регрессия, тестовая выборка)
На рисунке 26 изображена ROC-кривая для тестовой выборки, показатель которой равен 0.865, т.е. на 0.007 больше, чем для обучающей выборки. Показатель значим на уровне 0.001.
Рисунок 26. ROC-кривая для предсказанной вероятности разрыва договора из-за неуплаты (логистическая регрессия, тестовая выборка)
Результаты моделирования
Таким образом, были построены две модели для предсказания разных причин досрочного разрыва договора с помощью логистической регрессии. С учетом оптимального порога отсечения, равного 0.5, точность модели расторжения договоров по собственному желанию оказалась равной 69.1%. Доли истинно положительных и истинно отрицательных оказались очень близки и составили соответственно 69,0 и 69.3%. После применения построенной модели на тестовой выборке общая точность предсказаний уменьшилась примерно на 1 п.п. Кроме того, сохранилась близость долей истинно положительных и истинно отрицательных предсказаний.
Для модели, предсказывающей расторжение договора из-за неуплаты, порог отсечения оказался равен 0.58. С учетом порога точность модели оказалась равной 79.4%. Доли истинно положительных и истинно отрицательных оказались очень близки и составили соответственно 79,3 и 79.4%. После применения построенной модели на тестовой выборке общая точность увеличилась до 80%, в отличие от предыдущей модели. Кроме того, сохранилась близость долей истинно положительных и истинно отрицательных предсказаний, однако доля первых на 2.4 п. п. больше и составляет 82%.
Вторая модель, предсказания расторжения из-за неуплаты несколько более удачная, чем первая по совокупности показателей (, , распределению предсказанной вероятности и точности). Однако сравнение будет уместно далее в рамках предсказания одной и той же причины расторжения с помощью разных моделей.
3.3.2 Регрессия Кокса
Модель предсказания расторжения по желанию клиента
В данной модели в качестве статусной переменной, разделяющей цензурированные и нецензурированные наблюдения, используется зависимая переменная. Если переменная принимает значение 1, наблюдение нецензурированное, так как договор расторгнут по желанию. Если же переменная принимает значение 0, наблюдение цензурированное, так как соответствующее событие не произошло. В качестве индикатора начала и конца события выступает переменная Длительность сотрудничества, выражаемая в месяцах. Если клиент ушел по собственному желанию, то переменная равна разнице между датами начала и расторжения договора. Если же договор страхования действует или расторгнут по иной причине, переменная равна разнице между датой начала договора и началом 2015 года.
На рисунке 27 изображено распределение предсказанной вероятности расторжения договора по желанию с разделением по фактическому значению прогнозируемой переменной. Из графика видно, что распределения пересекаются по всей области определения, о чем свидетельствуют и их статистические показатели. Средняя предсказанная вероятность для расторгнутых по желанию договоров равна 0.49 при стандартном отклонении в 0.25. Для другой категории эти показатели соответственно 0.23 и 0.26.
Рисунок 27. Распределение предсказанной вероятности разрыва договора по желанию (регрессия Кокса, обучающая выборка)
На рисунке 28 изображена ROC-кривая, показатель AUC которой равен 0.773 и значим на уровне 0.001.
Рисунок 28. ROC-кривая для предсказанной вероятности разрыва договора по желанию (регрессия Кокса, обучающая выборка)
Для того чтобы выбрать оптимальный порог отсечения с точки зрения минимизации разницы между ошибками первого и второго родов, был построен график, отражающий зависимость показателей точности модели от порога отсечения (рисунок 29). Показатели долей истинно положительных и истинно отрицательных имеют минимальную разницу при пороге отсечения 0.32. Модель с данным порогом отсечения имеет следующие показатели точности:
- доля истинно положительных предсказаний - 69.2%;
- доля истинно отрицательных предсказаний - 69.3%;
- доля верно предсказанных наблюдений - 69.2%.
Точность модели на тестовой выборке составила 69.5% (73.7% верных предсказаний для расторгнутых по желанию и 69.2% - для остальных). График предсказанных вероятностей для тестовой выборки представлен на рисунке 30. Выборочные характеристики аналогичны характеристикам распределения для обучающей выборки.
Рисунок 29. Зависимость параметров точности модели от порога отсечения (регрессия Кокса, предсказание расторжения по желанию клиента)
На рисунке 31 изображена ROC-кривая для тестовой выборки, показатель которой равен 0.779, т.е. на 0.006 меньше, чем для обучающей выборки. Показатель значим на уровне 0.001.
Рисунок 30. Распределение предсказанной вероятности разрыва договора по желанию (регрессия Кокса, тестовая выборка)
Рисунок 31. ROC-кривая для предсказанной вероятности разрыва договора по желанию (регрессия Кокса, тестовая выборка)
Модель предсказания расторжения из-за неуплаты
В данной модели аналогично предыдущей в качестве статусной переменной, разделяющей цензурированные и нецензурированные наблюдения, используется зависимая переменная, связанная с расторжением договора из-за неуплаты. Также в качестве индикатора начала и конца события выступает переменная Длительность сотрудничества, выражаемая в месяцах.
На рисунке 32 изображено распределение предсказанной вероятности расторжения договора из-за неуплаты с разделением по фактическому значению прогнозируемой переменной. Из графика видно, что распределения слабо разделены, о чем свидетельствуют их статистические характеристики. Средняя предсказанная вероятность для расторгнутых из-за неуплаты договоров равна 0.39 при стандартном отклонении в 0.17. Для другой категории эти показатели соответственно 0.35 и 0.30. Также для договоров, фактически расторгнутых из-за неуплаты, большая часть наблюдений находится в левой части. Для остальных же договоров большая часть наблюдений - в правой. Это свидетельствует о низком качестве модели, поскольку возникают трудности в выявлении оптимального порога отсечения.
Рисунок 32. Распределение предсказанной вероятности разрыва договора из-за неуплаты (регрессия Кокса, обучающая выборка)
На рисунке 33 изображена ROC-кривая, показатель AUC которой равен 0.505. Гипотеза о том, что принимается на уровне 0.268.
Рисунок 33. ROC-кривая для предсказанной вероятности разрыва договора из-за неуплаты (регрессия Кокса, обучающая выборка)
Для того чтобы выбрать оптимальный порог отсечения с точки зрения минимизации разницы между ошибками первого и второго родов, был построен график, отражающий зависимость показателей точности модели от порога отсечения (рисунок 34). Показатели долей истинно положительных и истинно отрицательных имеют минимальную разницу при пороге отсечения 0.36. В данном случае доля истинно положительных предсказаний равна 33%, а истинно отрицательных - 40.8%. Однако этому порогу отсечения соответствует 37.9% верных предсказаний, что меньше 50% и, следовательно, делает использование модели нецелесообразным. Поэтому в качестве порога отсечения была выбрана соседняя точка - 0.35, доля верных предсказаний для которой равна 54.0%. Модель с порогом отсечения, равным 0.35, имеет следующие показатели точности:
- доля истинно положительных предсказаний - 66.6%;
- доля истинно отрицательных предсказаний - 40.8%;
- доля верно предсказанных наблюдений - 54.0%.
Точность модели на тестовой выборке составила 44.5% (65.4% верных предсказаний для расторгнутых из-за неуплаты и 40.3% - для остальных). График предсказанных вероятностей для тестовой выборки представлен на рисунке 35. Выборочные характеристики аналогичны характеристикам распределения для обучающей выборки.
Рисунок 34. Зависимость параметров точности модели от порога отсечения (регрессия Кокса, предсказание расторжения из-за неуплаты)
Рисунок 35. Распределение предсказанной вероятности разрыва договора из-за неуплаты (регрессия Кокса, тестовая выборка)
На рисунке 36 изображена ROC-кривая для тестовой выборки, показатель которой равен 0.502 Гипотеза о том, что принимается на уровне 0.876.
Рисунок 36. ROC-кривая для предсказанной вероятности разрыва договора из-за неуплаты (регрессия Кокса, тестовая выборка)
Результаты моделирования
C помощью регрессии Кокса были построены две модели для предсказания разных причин досрочного разрыва договора. С учетом оптимального порога отсечения, равного 0.32, точность модели расторжения договоров по собственному желанию оказалась равной 69.2%. Доли истинно положительных и истинно отрицательных оказались очень близки и составили соответственно 69,2 и 69.3%. После применения построенной модели на тестовой выборке общая точность предсказаний незначительно увеличилась на 0.3 п.п. Однако доля истинно положительных предсказаний оказалась больше доли истинно отрицательных на 4.5 п.п. и составила 73.7%.
Для модели, предсказывающей расторжение договора из-за неуплаты, порог отсечения оказался равен 0.35. С учетом порога точность модели оказалась равной 54.0%. Доли истинно положительных и истинно отрицательных существенно отличались и составили соответственно 66.6 и 40.8%. После применения построенной модели на тестовой выборке общая точность уменьшилась до 44.5%. Кроме того, сохранилась разница долей истинно положительных и истинно отрицательных предсказаний: 65.4% и 40.3% соответственно. Также следует отметить, что в данной модели для обеих ROC-кривых (для обучающей и тестовой выборок) гипотеза была принята. Таким образом, построенная модель оказалась неудачной, поскольку ее точность на тестовой выборке менее 50%, т.е. меньше точности равномерного случайного предсказания.
Таким образом, модель предсказания расторжения договора по желанию оказалась более удачной по совокупности показателей. В то же время вторая модель оказалась непригодной к использованию по ряду причин, а именно равенство 0.5 показателя AUC и точность менее 50%.
3.3.3 Модель на основе метода Random Forest
Модель предсказания расторжения по желанию клиента
Распределение предсказанной вероятности расторжения по желанию представлено на рисунке 37. Распределения вероятности расторжения для двух категорий значительно разделены, о чем и свидетельствуют статистические показатели. Так среднее значения вероятности расторжения по желанию для наблюдений, фактически расторгнутых по желанию, равняется 0.90 со стандартным отклонением в 0.16. Аналогичные Статистические показатели для другой группы соответственно 0.28 и 0.29.
Рисунок 37. Распределение предсказанной вероятности разрыва договора по желанию (Random Forest, обучающая выборка)
На рисунке 38 представлена ROC-кривая со значением , равным 0.953 и значимым на уровне 0.001.
Для того чтобы выбрать оптимальный порог отсечения с точки зрения минимизации разницы между ошибками первого и второго родов, был построен график, отражающий зависимость показателей точности модели от порога отсечения (рисунок 39). Показатели долей истинно положительных и истинно отрицательных имеют минимальную разницу при пороге отсечения 0.66. Модель с данным порогом отсечения имеет следующие показатели точности:
- доля истинно положительных предсказаний - 88.4%;
- доля истинно отрицательных предсказаний - 90.0%;
- доля верно предсказанных наблюдений - 89.2%.
Рисунок 38. ROC-кривая для предсказанной вероятности разрыва договора по желанию (Random Forest, обучающая выборка)
Точность модели на тестовой выборке составила 79.9% (65.1% верных предсказаний для расторгнутых по желанию и 80.9% - для остальных). График предсказанных вероятностей для тестовой выборки представлен на рисунке 40.
Рисунок 39. Зависимость параметров точности модели от порога отсечения (Random Forest, предсказание расторжения по желанию клиента)
Рисунок 40. Распределение предсказанной вероятности разрыва договора по желанию (Random Forest, тестовая выборка)
На рисунке 41 изображена ROC-кривая для тестовой выборки, показатель которой равен 0.793, т.е. на 0.160 меньше, чем для обучающей выборки. Показатель значим на уровне 0.001.
Рисунок 41. ROC-кривая для предсказанной вероятности разрыва договора по желанию (Random Forest, тестовая выборка)
Модель предсказания расторжения из-за неуплаты
Распределение предсказанной вероятности расторжения по желанию представлено на рисунке 42. Распределения вероятности расторжения для двух категорий в значительной мере разделены, о чем свидетельствуют статистические показатели выборки. Так среднее значения вероятности расторжения по желанию для наблюдений, фактически расторгнутых по желанию, равняется 0.92 со стандартным отклонением в 0.19. Аналогичные Статистические показатели для другой группы соответственно 0.12 и 0.22.
Для того чтобы выбрать оптимальный порог отсечения с точки зрения минимизации разницы между ошибками первого и второго родов, был построен график, отражающий зависимость показателей точности модели от порога отсечения (рисунок 44). Показатели долей истинно положительных и истинно отрицательных имеют минимальную разницу при пороге отсечения 0.44. Модель с данным порогом отсечения имеет следующие показатели точности:
- доля истинно положительных предсказаний - 95.8%;
- доля истинно отрицательных предсказаний - 89.2%;
- доля верно предсказанных наблюдений - 92.6%.
Рисунок 42. Распределение предсказанной вероятности разрыва договора из-за неуплаты (Random Forest, обучающая выборка)
Рисунок 43. ROC-кривая для предсказанной вероятности разрыва договора из-за неуплаты (Random Forest, обучающая выборка)
Рисунок 44. Зависимость параметров точности модели от порога отсечения (Random Forest, предсказание расторжения из-за неуплаты)
Точность модели на тестовой выборке составила 88.9% (92.3% верных предсказаний для расторгнутых из-за неуплаты и 88.3% - для остальных). График предсказанных вероятностей для тестовой выборки представлен на рисунке 45.
Рисунок 45. Распределение предсказанной вероятности разрыва договора из-за неуплаты (Random Forest, тестовая выборка)
На рисунке 46 изображена ROC-кривая для тестовой выборки, показатель которой равен 0.956, т.е. на 0.020 меньше, чем для обучающей выборки. Показатель значим на уровне 0.001.
Рисунок 46. ROC-кривая для предсказанной вероятности разрыва договора из-за неуплаты (Random Forest, тестовая выборка)
Результаты моделирования
Таким образом, были построены две модели для предсказания разных причин досрочного разрыва договора с помощью метода Random forest. С учетом оптимального порога отсечения, равного 0.66, точность модели расторжения договоров по собственному желанию оказалась равной 89.2%. Доли истинно положительных и истинно отрицательных оказались очень близки и составили соответственно 88,4 и 90.0%. После применения построенной модели на тестовой выборке общая точность предсказаний уменьшилась до 79.9%. Однако на тестовой выборке изменилось соотношение долей истинно положительных и истинно отрицательных предсказаний: 65,1 и 80.9% соответственно.
Для модели, предсказывающей расторжение договора из-за неуплаты, порог отсечения оказался равен 0.44. С учетом порога точность модели оказалась равной 92.8%. Доли истинно положительных и истинно отрицательных оказались довольно близки и составили соответственно 91.9 и 93.7%. После применения построенной модели на тестовой выборке общая точность несколько уменьшилась до 88.9%. Соотношение долей истинно положительных и истинно отрицательных предсказаний немного сместилось в сторону истинно положительных: 92.3% и 88.3%.
Модель, предсказывающая расторжение по собственному желанию, показала достаточно высокий результат: около 90% точности на обучающей выборке. Однако на тестовой выборке точность уменьшилась на 10 п.п., и доля истинно положительных предсказаний упала до 65%. Вторая модель, предсказывающая расторжения из-за неуплаты, несколько более удачная из-за высокой доли верных предсказаний около - 90% - и приемлемого уменьшения точности на тестовой выборке лишь на 4 п.п.
3.3.4 Нейросетевая модель
Модель предсказания расторжения по желанию клиента
Построенная модель обладает следующими характеристиками:
- количество скрытых слоев: 2;
- количество элементов в первом скрытом слое: 13;
- количество элементов в первом скрытом слое: 10;
- активационная функция (скрытые слои): сигмоид;
- активационная функция (внешний слой): Softmax.
В таблице 3 указан список предикторов, отранжированных по важности в модели. Так, пять наиболее значимых объясняющих переменных по убыванию их важности: длительность сотрудничества, премия первого года страхования, общая сумма поступлений от клиентов (группа), процент изменения премии, общая сумма поступлений от клиента.
Таблица 3. Важность независимых переменных в предсказании расторжения по желанию клиента (нейросетевая модель)
Предиктор |
Важность |
Нормализованная важность |
|
Длительность сотрудничества со страховой компанией, мес. |
0.136 |
100.0% |
|
Премия первого года страхования в тыс. руб. |
0.102 |
75.4% |
|
Итого поступило рубли группа |
0.083 |
61.2% |
|
% изменения премии |
0.073 |
53.5% |
|
Оплачено в тыс. руб. на начало 2015 |
0.066 |
48.7% |
|
Текущая годовая премия в тыс. руб. |
0.062 |
46.0% |
|
Возраст начала договора |
0.056 |
41.1% |
|
Периодичность оплаты премии |
0.053 |
38.8% |
|
Валюта договора |
0.051 |
37.3% |
|
Премия первого года рубли группа |
0.040 |
29.6% |
|
Город заключения договора |
0.035 |
26.1% |
|
Общий срок действия договора (лет) |
0.035 |
25.8% |
|
Премия текущая рубли группа |
0.034 |
24.8% |
|
Семейное положение |
0.030 |
21.8% |
|
Группы договоров по длительности |
0.029 |
21.2% |
|
Возраст начала договора (группа) |
0.028 |
20.5% |
|
Должность клиента |
0.028 |
20.4% |
|
Регулярная или единовременная оплата |
0.025 |
18.1% |
|
Группа страхового продукта |
0.024 |
17.7% |
|
Пол клиента |
0.013 |
9.4% |
Распределение предсказанной вероятности расторжения по желанию представлено на рисунке 47. Распределения вероятности расторжения для двух категорий в значительной мере пересекаются, что говорит о существенной доле ошибочных классификаций. Так среднее значения вероятности расторжения по желанию для наблюдений, фактически расторгнутых по желанию, равняется 0.55 со стандартным отклонением в 0.20. Аналогичные Статистические показатели для другой группы соответственно 0.33 и 0.23.
Рисунок 47. Распределение предсказанной вероятности разрыва договора по желанию (нейросетевая модель, обучающая выборка)
На рисунке 48 представлена ROC-кривая со значением , равным 0.767 и значимым на уровне 0.001.
Для того чтобы выбрать оптимальный порог отсечения с точки зрения минимизации разницы между ошибками первого и второго родов, был построен график, отражающий зависимость показателей точности модели от порога отсечения (рисунок 49). Показатели долей истинно положительных и истинно отрицательных имеют минимальную разницу при пороге отсечения 0.45. Модель с данным порогом отсечения имеет следующие показатели точности:
Рисунок 48. ROC-кривая для предсказанной вероятности разрыва договора по желанию (нейросетевая модель, обучающая выборка)
- доля истинно положительных предсказаний - 70.0%;
- доля истинно отрицательных предсказаний - 69.8%;
- доля верно предсказанных наблюдений - 69.9%.
Рисунок 49. Зависимость параметров точности модели от порога отсечения (нейросетевая модель, предсказание расторжения по желанию клиента)
Точность модели на тестовой выборке составила 69.4% (75.4% верных предсказаний для расторгнутых по желанию и 68.9% - для остальных). График предсказанных вероятностей для тестовой выборки представлен на рисунке 50. Выборочные характеристики аналогичны характеристикам распределения вероятностей для обучающей выборки.
Рисунок 50. Распределение предсказанной вероятности разрыва договора по желанию (нейросетевая модель, тестовая выборка)
Рисунок 51. ROC-кривая для предсказанной вероятности разрыва договора по желанию (нейросетевая модель, тестовая выборка)
На рисунке 51 изображена ROC-кривая для тестовой выборки, показатель которой равен 0.763, т.е. на 0.004 меньше, чем для обучающей выборки. Показатель значим на уровне 0.001.
Модель предсказания расторжения из-за неуплаты
Построенная модель обладает следующими характеристиками:
- Количество скрытых слоев: 2;
- Количество элементов в первом скрытом слое: 13;
- Количество элементов в первом скрытом слое: 10;
- Активационная функция (скрытые слои): сигмоид;
- Активационная функция (внешний слой): Softmax.
В таблице 4 указан список предикторов, отранжированных по степени важности в модели. Так, пять наиболее значимых объясняющих переменных по убыванию их важности: длительность сотрудничества со страховой компанией, текущая годовая премия, премия первого года страхования, общая сумма поступлений от клиента, процент изменения премии.
Таблица 4. Важность независимых переменных в предсказании расторжения договора из-за неуплаты (нейросетевая модель)
Предиктор |
Важность |
Нормализованная важность |
|
Длительность сотрудничества со страховой компанией, мес. |
0.163 |
100.0% |
|
Текущая годовая премия в тыс. руб. |
0.159 |
97.4% |
|
Премия первого года страхования в тыс. руб. |
0.145 |
88.9% |
|
Оплачено в тыс. руб. на начало 2015 |
0.116 |
70.8% |
|
% изменения премии |
0.043 |
26.5% |
|
Периодичность оплаты премии |
0.043 |
26.4% |
|
Общий срок действия договора (лет) |
0.042 |
25.6% |
|
Должность клиента |
0.031 |
18.8% |
|
Регулярная или единовременная оплата |
0.029 |
17.7% |
|
Итого поступило рубли группа |
0.028 |
17.0% |
|
Группа страхового продукта |
0.027 |
16.4% |
|
Город заключения договора |
0.025 |
15.4% |
|
Возраст начала договора |
0.023 |
14.0% |
|
Премия первого года рубли группа |
0.022 |
13.6% |
|
Группы договоров по длительности |
0.022 |
13.5% |
|
Семейное положение |
0.020 |
12.4% |
|
Валюта договора |
0.017 |
10.5% |
|
Премия текущая рубли группа |
0.016 |
10.0% |
|
Возраст начала договора (группа) |
0.016 |
9.8% |
|
Пол клиента |
0.011 |
6.9% |
Распределение предсказанной вероятности расторжения из-за неуплаты представлено на рисунке 52. Распределения вероятностей для каждой фактической категории пересекаются по всему диапазону значений, однако основная масса наблюдений, фактически являющихся расторгнутыми из-за неуплаты, сосредоточена справа, а фактические наблюдения другой категории - слева. Так среднее значение вероятности расторжения для фактически расторгнутых из-за неуплаты, равняется 0.75 со стандартным отклонением в 0.29. Те же Статистические показатели для другой группы соответственно 0.25 и 0.33.
Рисунок 52. Распределение предсказанной вероятности разрыва договора из-за неуплаты (нейросетевая модель, обучающая выборка)
На рисунке 53 представлена ROC-кривая, отражающая качество классификатора, со значением , равным 0.864 и значимым на уровне 0.001.
Рисунок 53. ROC-кривая для предсказанной вероятности разрыва договора из-за неуплаты (нейросетевая модель, обучающая выборка)
Для того чтобы выбрать оптимальный порог отсечения с точки зрения минимизации разницы между ошибками первого и второго родов, был построен график, отражающий зависимость показателей точности модели от порога отсечения (рисунок 54). Показатели долей истинно положительных и истинно отрицательных имеют минимальную разницу при пороге отсечения 0.61. Модель с данным порогом отсечения имеет следующие показатели точности:
- доля истинно положительных предсказаний - 78.5%;
- доля истинно отрицательных предсказаний - 78.5%;
- доля верно предсказанных наблюдений - 78.5%.
Точность модели на тестовой выборке составила 78.5% (77.4% верных предсказаний для расторгнутых по желанию и 78.7% - для остальных). График предсказанных вероятностей для тестовой выборки представлен на рисунке 55. Выборочные характеристики аналогичны характеристикам распределения вероятностей для обучающей выборки.
Рисунок 54. Зависимость параметров точности модели от порога отсечения (нейросетевая модель, предсказание расторжения из-за неуплаты)
Рисунок 55. Распределение предсказанной вероятности разрыва договора из-за неуплаты (нейросетевая модель, тестовая выборка)
На рисунке 56 изображена ROC-кривая для тестовой выборки, показатель которой равен 0.864, т.е. равно аналогичному показателю обучающей выборки. Показатель значим на уровне 0.001.
Рисунок 56. ROC-кривая для предсказанной вероятности разрыва договора из-за неуплаты (нейросетевая модель, тестовая выборка)
Результаты моделирования
Таким образом, были построены две модели для предсказания разных причин досрочного разрыва договора с помощью нейронной сети. С учетом оптимального порога отсечения, равного 0.45, точность модели расторжения договоров по собственному желанию оказалась равной 69.9%. Доли истинно положительных и истинно отрицательных оказались очень близки и составили соответственно 70,0 и 69.8%. После применения построенной модели на тестовой выборке общая точность предсказаний уменьшилась на 0.5 п.п. Однако, соотношение долей истинно положительных и истинно отрицательных предсказаний сместилось в сторону истинно положительных: 75.4% и 68.9%.
Для модели, предсказывающей расторжение договора из-за неуплаты, порог отсечения оказался равен 0.61. С учетом порога точность модели оказалась равной 78.5%. Доли истинно положительных и истинно отрицательных оказались равны и составили 78.5%. После применения построенной модели на тестовой выборке общая точность не изменилась. Соотношение долей истинно положительных и истинно отрицательных предсказаний немного сместилось в сторону истинно отрицательных: 77.4% и 78.7%.
Обе построенные модели оказались пригодными для использования. Вторая модель показала точность большую примерно на 9 п.п. Обе модели мало изменили точность при проверке на тестовой выборке: для модели предсказания расторжения по желанию на тестовых данных доля верных предсказаний уменьшилась на 0.5 п.п., а для второй модели на тестовых данных точность не изменилась.
3.5. Сравнительный анализ моделей расторжения договоров
Сравнение моделей предсказания расторжения по желанию клиента
Для проведения анализа сравниваются ROC-кривые для всех полученных моделей предсказания расторжения договоров страхования жизни по желанию клиента. Для сравнения используются модели, построенные на тестовых выборках (рисунок 57). Среди кривых нельзя однозначно определить лидера, который находился бы выше и левее всех. Однако, можно выделить модель Random forest и регрессию Кокса. Первая доминирует при значениях показателя менее 0.3, вторая при значениях более 0.3.
Показатели AUC (таблица 5) соответствуют визуальному представлению на графике (рисунок 57). Наибольшее значение показателя у модели Random Forest 0.793. У модели, построенной на регрессии Кокса, показатель несколько меньше - 0.779. Наименьший показатель AUC у модели, построенной на логистической регрессии. Таким образом, с точки зрения показателя , лучшей моделью предсказания расторжения договора страхования по желанию клиента является Random Forest. Однако ROC-кривые не являются единственным способом оценки качества бинарного классификатора. Строго говоря, кривые анализируют различные пороги отсечения для модели, оценивая её предсказательные способности. Но поскольку для моделей уже найден оптимальный порог отсечения, в анализ следует включить и иные показатели.
Рисунок 57. Сравнение ROC-кривых для построенных предиктивных моделей расторжения договора по желанию
Таблица 5. Сравнение показателя AUC для моделей предсказания расторжения договора по желанию
Предсказательные модели |
AUC |
Стд. ошибка |
Значимость |
|
Random Forest |
0.793 |
0.018 |
0.000 |
|
Регрессия Кокса |
0.779 |
0.014 |
0.000 |
|
Нейросетевая модель |
0.763 |
0.017 |
0.000 |
|
Бинарная логистическая модель |
0.722 |
0.018 |
0.000 |
В таблице 6 представлены показатели качества построенных моделей. Помимо в таблицу включены такие показатели как доля истинно положительных предсказаний (TP, True Positive), доля истинно отрицательных предсказаний (TN, True Negative), доля верных предсказаний, точность (Precision) и F-мера. Несмотря на то, что модель на основе Random Forest превосходит все остальные модели по таким параметрам как доля истинно отрицательных предсказаний, доля верных предсказаний, точность (precision) и , слишком велика разница между показателями TP и TN. Следует отметить, что расторгнутые по желанию договора предсказываются лишь в 65.1% наблюдений. Иными словами, треть расторжений по данной причине неверно классифицируется, что является худшим показателем среди всех моделей. Поэтому модель Random Forest не может быть выбрана в качестве наиболее подходящей.
Таблица 6. Сравнение показателей качества классификатора для моделей предсказания расторжения договора по желанию клиента
Модель |
TP |
TN |
Верные предсказания |
Precision |
F-мера |
AUC |
|
Бинарная логистическая модель |
68.6% |
68.0% |
68.0% |
0.682 |
0.684 |
0.722 |
|
Нейросетевая модель |
75.4% |
68.9% |
69.4% |
0.708 |
0.731 |
0.763 |
|
Random Forest |
65.1% |
80.9% |
79.9% |
0.773 |
0.707 |
0.793 |
|
Регрессия Кокса |
73.7% |
69.2% |
69.5% |
0.705 |
0.721 |
0.779 |
Из оставшихся выделяются нейросетевая модель и модель на основе регрессии Кокса. Обе модели превосходят другие по трем критериям (без учета исключенной модели Random Forest). Нейросетевая модель показывает лучшие результаты по следующим критериям: доля истинно положительных предсказаний, точность (precision) и F-мера. В свою очередь, модель на основе регрессии Кокса показывает лучшие результаты по следующим критериям: доля истинно отрицательных предсказаний, доля верных предсказаний и . Из этих моделей в качестве наиболее предпочтительной можно выбрать построенную на основе регрессии Кокса, поскольку для нее характерна меньшая разница между долями истинно положительных и истинно отрицательных предсказаний.
Сравнение моделей предсказания расторжения из-за неуплаты
Для проведения анализа сравним ROC-кривые для всех полученных моделей предсказания расторжения договоров страхования жизни из-за неуплаты. Для сравнения используются модели, построенные на обучающих выборках (рисунок 58). На графике однозначно видны самая лучшая и худшая модели. Выше и левее других находится модель, построенная с помощью алгоритма Random Forest, ниже и правее - модель, построенная с помощью алгоритма. Две другие модели - нейросетевая и логистическая регрессия - находятся между вышеуказанными моделями и пересекаются при показателе около 0.15.
Рисунок 58. Сравнение ROC-кривых для построенных предиктивных моделей расторжения договора из-за неуплаты
Показатели AUC (таблица 7) соответствуют визуальному представлению на графике (рисунок 57). Наибольшее значение показателя AUC у модели Random Forest - 0.956. У модели, построенной на регрессии Кокса, наименьший показатель - 0.502, кроме того, принимается гипотеза о равенстве нулю. У логистической регрессии и нейросетевой модели показатели очень близки: 0.865 и 0.864 соответственно. Таким образом, с точки зрения показателя AUC, лучшей моделью предсказания расторжения договора страхования из-за неуплаты является Random Forest. Аналогичный результат получен и для расторжения договора по желанию, и точно так же, поскольку для моделей уже найден оптимальный порог отсечения, в анализ следует включить и иные показатели.
Таблица 7. Сравнение показателя AUC для моделей предсказания расторжения договора из-за неуплаты
Предсказательные модели |
AUC |
Стд. ошибка |
Значимость |
|
Random Forest |
0.956 |
0.006 |
0.000 |
|
Бинарная логистическая модель |
0.865 |
0.008 |
0.000 |
|
Нейросетевая модель |
0.864 |
0.009 |
0.000 |
|
Регрессия Кокса |
0.502 |
0.012 |
0.876 |
В таблице 8 представлены показатели качества построенных моделей. Помимо в таблицу включены такие показатели как доля истинно положительных предсказаний (TP, True Positive), доля истинно отрицательных предсказаний (TN, True Negative), доля верных предсказаний, точность (Precision) и F мера. Помимо рассмотренного модель, построенная с помощью метода Random Forest, превосходит все остальные модели по всем показателям. Таким образом, наилучшей моделью для предсказания расторжения договоров из-за неуплаты является модель, построенная на основе метода Random Forest.
Таблица 8. Сравнение показателей качества классификатора для моделей предсказания расторжения договора из-за неуплаты
Модель |
TP |
TN |
Верные предсказания |
Точность |
F-measure |
AUC |
|
Бинарная логистическая модель |
82.0% |
79.6% |
80.0% |
0.801 |
0.810 |
0.865 |
|
Нейросетевая модель |
77.4% |
78.7% |
78.5% |
0.784 |
0.779 |
0.864 |
|
Random Forest |
92.3% |
88.3% |
88.9% |
0.887 |
0.905 |
0.956 |
|
Регрессия Кокса |
65.4% |
40.3% |
44.5% |
0.523 |
0.581 |
0.502 |
Таким образом, в качестве наиболее подходящей модели для предсказания расторжения договора по желанию была выбрана модель на основе регрессии Кокса, а для предсказания расторжения из-за неуплаты - модель на основе метода Random Forest. Cтоит отметить, что, в целом, полученные модели лучше прогнозируют расторжение договора из-за неуплаты. Так в выбранных моделях на тестовых данных доля верных предсказаний оказалась равна 69.5% и 88.9% соответственно для расторжения по желанию и из-за неуплаты.
На рисунке 59 изображено соотношение между оценками вероятностей, которые получают страховые договора.
Рисунок 59. Соотношение вероятностей расторжения договоров по разным причинам
После того как выбраны наиболее подходящие модели прогнозирования для каждой из причин расторжения договоров, рассмотрим, как соотносятся предсказанные вероятности быть отнесенным к той или иной категории соотносятся между собой. На осях и (рисунок 59) отложены соответственно предсказанные вероятности расторжения договора из-за неуплаты (на основе разработанной модели Random Forest) и вероятности расторжения договора из-за неуплаты (на основе разработанной регрессии Кокса). Как видно из рисунка 59, правая нижняя часть графика содержит в себе большую часть случаев досрочного расторжения по причине неуплаты, а левая верхняя - по собственному желанию. Это говорит о том, что для большинства (для 95%) договоров, фактических расторгнутых из-за неуплаты, предсказанная вероятность быть расторгнутым по этой же причине больше вероятности быть расторгнутым по желанию. Аналогично, для большинства договоров (для 77%), фактически расторгнутых по желанию, предсказанная вероятность быть расторгнутым этой же причине больше вероятности быть расторгнутым из-за неуплаты.
На рисунке 60 более детально изображено распределение предсказанных вероятностей для фактических категорий. Так, для договоров, фактически расторгнутых по желанию, предсказанная вероятность быть расторгнутым из-за неуплаты в большинстве случаев не превышает 0.40 (средняя вероятность 0.24, стандартное отклонение - 0.35). В свою очередь для договоров, фактически расторгнутых из-за неуплаты, предсказанная вероятность принадлежать иной категории в большинстве случаев не превышает 0.50 (средняя вероятность 0.30, стандартное отклонение - 0.21).
Рисунок 60. Распределение предсказанных вероятностей для фактических категорий
Данный результат несколько слабее предыдущего, однако. это может быть объяснено разницей почти в 20 п.п. в точности предсказания расторжения по желанию и из-за неуплаты в пользу второго.
Совместный анализ предсказанных вероятностей и фактических категорий позволяет сделать вывод о пригодности методов для использовании на практике в страховой компании. Это обосновывается тем, что в большинстве случаев предсказаний не возникает противоречия между вычисленными вероятностями для каждого из типов расторжения.
Заключение
Подходы к предсказанию потенциального поведения клиента, а именно досрочного расторжения договоров страхования жизни, рассмотренные в данной работе, позволяют бизнесу эффективно решать задачи уменьшения оттока клиентов. Необходимость применения таких подходов обусловлена потребностями лиц, принимающих решения относительно политики отношений со страхователями.
В данной работе были решены следующие задачи:
1) Была подготовлена к исследованию информационная база. Во-первых, была произведена очистка базы от отсутствующих значений. Таким образом, количество наблюдений в базе сократилось с 15688 до 13219, а также из рассмотрения была удалена переменная, показывающая сферу деятельности, в которой занят клиент страховой компании. Во-вторых, были сформированы два набора данных, каждый из которых отвечал за прогнозирование одной из причин - расторжение договора страхования по собственному желанию или из-за неуплаты. В свою очередь, в рамках каждого набора данных были выделены обучающая и тестовая выборки. Ввиду несбалансированности выборок был применен метод увеличения наименьшего класса: расторгнутые по желанию договоры (7% наблюдений) и расторгнутые из-за неуплаты договоры (18%) были случайным образом копированы до размера около половины выборки.
Подобные документы
Виды долгосрочного и краткосрочного страхования. Моделирование портфеля договоров страховой компании, состоящей из групп договоров, с помощью программы в среде Delphi. Принципы назначения страховых премий. Актуарная современная стоимость обязательств.
дипломная работа [2,2 M], добавлен 23.05.2014Нормативно-правовое регулирование страхования жизни в России. Проблемы и перспективы развития гражданского законодательства страхования жизни в государстве. Составление договоров личного страхования от несчастных случаев. Обзор судебной практики.
дипломная работа [246,4 K], добавлен 20.07.2014Анализ страхования в истории правовой системы и жизни общества. Особенности и отрицательные стороны страхования в России. Исследование возможности осуществления страхования на основании двух видов договоров – имущественного и личного страхования.
курсовая работа [43,2 K], добавлен 10.01.2017Изучение экономической и социальной сущности личного страхования; его виды. Характеристика современного состояния рынка личного страхования в России; его проблемы и перспективы. Особенности заключения договоров страхования жизни и здоровья человека.
курсовая работа [55,7 K], добавлен 09.09.2014Общие понятия и роль жилищного страхования. Особенности имущественного страхования. Государственное регулирование страхования жилья. Порядок заключения и ведения договоров. Актуальные проблемы страхования жилья в России. Анализ международного опыта.
дипломная работа [2,3 M], добавлен 07.11.2012Содержание страхования от несчастных случаев, его основные подвиды и их условия. Определение тарифов по страхованию жизни. Особенности заключения и условия договоров личного страхования. Основные критерии классификации личного страхования и его значение.
презентация [584,6 K], добавлен 08.03.2013Инвестиции как объект страхования. Виды договоров страхования инвестиций в зависимости от различных этапов инвестиционной деятельности. Перспективы и тенденции развития, меры по развитию системы страхования финансовых рисков в Российской Федерации.
курсовая работа [46,5 K], добавлен 12.05.2011Правовая природа договора страхования, его признаки как консенсуального и реального договора в гражданском праве. Условия и порядок заключения, механизмы и процедура составления документа. Общая характеристика различных видов договоров страхования.
реферат [24,4 K], добавлен 08.02.2012Социально-экономическая сущность страхования, его правовые основания. Особенности процесса страхования в Российской Федерации, порядок заключения договоров. Виды, отрасли, подотрасли, принципы классификации по объектам страхования и роду опасностей.
дипломная работа [57,5 K], добавлен 06.12.2013Экономическая сущность страхования: предоставление защиты от возможных опасностей природного, техногенного, экономического, социального, экологического происхождения. Виды личного страхования. Методы и принципы расчета страховой премии ООО "Росгосстрах".
курсовая работа [335,7 K], добавлен 15.01.2015