Прототип скоринговой системы комиссионных доходов банка от физических лиц
Создание прототипа скоринговой системы комиссионных доходов банка, представляющей собой инструмент для принятия решений, состоящий из баз данных клиентов, задач и методов, программных средств, которые позволяют предсказать поведение и оценить риски.
Рубрика | Банковское, биржевое дело и страхование |
Вид | дипломная работа |
Язык | русский |
Дата добавления | 20.05.2019 |
Размер файла | 1,2 M |
Отправить свою хорошую работу в базу знаний просто. Используйте форму, расположенную ниже
Студенты, аспиранты, молодые ученые, использующие базу знаний в своей учебе и работе, будут вам очень благодарны.
Размещено на http://www.allbest.ru/
Реферат
Объем выпускной квалификационной работы - 41 страниц машинописного текста. Количество иллюстраций - 6 шт., таблиц - 4 шт., источников библиографического списка - 12 шт. Работа включает в себя 4 раздела.
В первой главе рассмотрены теоретические основы скоринга, методы и этапы классификации.
Во второй главе представлена скоринговая модель комиссионных доходов банка от физических лиц: ее описание, алгоритмы отбора признаков и классификации.
В третьей главе описываются модули работы программы.
В четвертой главе представлены результаты работы программы.
Содержание
- Введение
- Глава 1. Теоретические основы скоринга
- 1.1 Актуальность темы исследования
- 1.2 Методы классификации и этапы формирования скоринговой модели
- 1.2.1 Статистические методы
- 1.2.2 Линейное программирование
- 1.2.3 Нейронные сети. Дерево классификаций
- 1.2.4 Генетический алгоритм
- 1.2.5 Метод ближайшего соседа
- 1.2.6 Этапы построения скоринга
- 1.3 Данные для скоринговой модели
- 1.3.1 Формирование базы данных клиентов
- 1.3.2 Отбор признаков
- 1.3.3 Стандартизация данных
- 1.4 Расчёт доходности клиента
- 1.4.1 Требования к исходной информации
- 1.4.2 Этапы расчёта доходности
- Глава 2. Прототип скоринговой системы комиссионных доходов
- 2.1 Описание модели
- 2.2 Алгоритм отбора признаков
- 2.3 Алгоритм для решения задачи классификации
- Глава 3. Программа
- 3.1 Обоснование выбора инструмента машинного обучения
- 3.2 Листинг программы
- 3.2.1 Модуль формирования данных
- 3.2.2 Модуль классификатора
- 3.2.3 Вывод результатов работы программы
- 3.2.4 Рисование графиков
- Глава 4.результаты работы программы
- 4.1 Параметры модели
- 4.2 Классификация объектов
- Заключение
- Список литературы
Введение
Коммерческий банк - кредитная организация, которая имеет исключительное право осуществлять различные банковские операции благодаря специальной лицензии Центрального Банка России. Главная цель коммерческого банка - получение прибыли. Банковские операции строго регламентированы Федеральным законом "О банках и банковской деятельности". Коммерческий банк оказывает в совокупности следующие услуги для физических и юридических лиц:
· платёжные и расчётные операции;
· привлечение во вклады денежных средств физических и юридических лиц;
· операции на рынке ценных бумаг;
· предоставление ссуд;
· посреднические операции;
· валютные операции;
· операции с драгоценными металлами;
· выход на фондовый рынок и Forex;
· ведение расчётных счётов;
· обмен испорченных денежных знаков на новые неиспорченные;
· кредитование;
· ипотека.
Есть также банки, которые более узко специализируются на определённых услугах.
Деятельность любого коммерческого банка направлена на максимизацию прибыли в условиях рыночной экономики. Доходность банка состоит из следующих объектов управленческого учета и анализа:
· доходность филиалов, кэптивных (дочерних) банков, аффилированных предприятий;
· доходность точек продаж;
· доходность банковских услуг, продуктов;
· доходность клиентов.
Рисунок 1- Иерархическое представление объектов доходности банка
Банковскую экономическую модель доходности клиента можно описать формулой (1):
ЭП=СПД+СР+СКД+СТД-НР,
где ЭП - экономическая прибыль от клиента,
СПД - сальдо прямых процентных доходов, полученных от клиента,
СР - сальдо движения резервов по кредитным позициям клиента,
СКД - сальдо комиссионных доходов и расходов от клиента,
СТД - сальдо трансфертных доходов и расходов ресурсам клиента,
НР - расходы по обслуживанию клиентов.
Как видно из формулы, максимизация любого слагаемого означает увеличение экономической прибыли банка. У большинства банков можно заметить рост удельного веса комиссионных доходов от общего объема всех доходов. Это обусловлено тем, что комиссионные доходы более стабильны, чем процентные. Комиссионные доходы называются транзакционным бизнесом. В эпоху экономического спада, банки предпочитают минимизировать свои риски, увеличивая объём доходов от наименее рискованных продуктов.
Задача любого бизнеса - увеличивать объёмы с заложенным процентом риска. Оценку рисков банк может проводить по утверждённым внутренним методикам, на основании которых разрабатываются модели и стратегии развития бизнеса. Такие модели банк разрабатывает в следующих основных направлениях: кредитный, транзакционный и депозитный бизнес. Для использования некоторой методики на больших объёмах данных необходимы модели анализа - скоринговые модели по минимальному количеству показателей. Скорингом называют модель, которая классифицирует клиентскую базу на разные группы при условии, что характеристики, разделяющие эти группы, неизвестны, но известны другие критерии, которые связаны с интересующими нас характеристиками. В частности, для транзакционного бизнеса, скоринговая модель позволяет оценить и выделить наиболее перспективных клиентов и, что немаловажно, выявить убыточных клиентов, то есть клиентов, предоставив которым некоторый продукт, банк с высокой долей вероятности понесёт убытки. Неоднородность данных для анализа ведёт к необходимости выявления только значимых показателей.
Глава 1. Теоретические основы скоринга
1.1 Актуальность темы исследования
Скоринг - это метод разделения потенциальных и действующих клиентов банка на различные группы. Основной целью разделения или классификации является отнесение всех потенциальных клиентов к группе "хороших", то есть тех, кто с высокой вероятностью принесут прибыль и которым стоит предложить большее количество продуктов, и "плохих", которые будут заведомо убыточны и предложения разных карточных продуктов бессмысленно и даже негативно скажется на доходе. Термины "хороший" и "плохой" являются общепринятыми в этой области науки. В скоринге классификация основывается на косвенных признаках, так как прямого признака плохой/хороший нет. В качестве этих признаков могут быть использованы пол, возраст, стаж работы, количество операций по карте, оборот средств. На основе этих характеристик можно построить критерий классификации. Смысл скоринга заключается в том, что мы не ищем объяснения поведению клиента, а рассматриваем признаки, которые тесно связаны с критерием классификации. Таким образом, например, в кредитном скоринге, мы точно не можем знать вернёт клиент кредит или нет, у нас есть только информация, что люди, с такими же признаками (пол, возраст, средняя заработная плата) кредит возвращали.
В последние годы многие математики и экономисты занимаются методологией скоринга: Андреева Г.В., Александрова А.Ю., Заяц А.М., Заиченко Е.М., Степанова В., Кармокова A.A., Henley W.E., Churchill G.A., Nevin J.R., Forgy E.W. и др. Такой интерес к скоринговым системам развился в результате появления кредитных и дебетовых банковских карт, увеличении вычислительной мощности компьютеров, возможность хранить и обрабатывать гигантские объёмы информации. В России скоринг развивается достаточно медленно, в отличии от стран Европы и США, так как количество данных, которыми располагают российские банки, недостаточно для хорошего анализа. Более того, даже само качество имеющихся данных можно поставить под сомнение. Поэтому у отечественных банков есть два выхода. Первый - использовать скоринговые системы, разработанные зарубежными специалистами, изменяя их под экономические реалии Российской Федерации. Второй - создавать такие модели, которые могут хорошо работать даже на плохих данных.
В настоящий момент скоринговые системы широко применяют не только в кредитных отделах при оценке риска, но и в других областях. Яркий пример- маркетинг: важно знать, какая группа клиентов будет пользовать тем или иным продуктом. Так же полезно уметь определять вероятность того, что клиент перейдёт к конкурентам или решит сменить продукт. Скоринговая система может обрабатывать большое количество информации в короткие сроки, что, во-первых, экономит ресурсы аналитиков (а анализ некоторых показателей вообще невозможен без участия компьютера), во-вторых, в ряде случаев скорость принятия решения является существенной в привлечении клиентов. Скоринговую модель можно использовать как инструмент планирования: банк заранее закладывает определенный риск (плановую убыточность, например, 0,2% на расходы от всего проекта) и планирует прибыль. В случае с комиссионными доходами, скоринговая модель - это инструмент не только для планирования. Скоринг можно использовать для оптимизации доходов/расходов от существующих клиентов и для привлечения новых людей.
1.2 Методы классификации и этапы формирования скоринговой модели
Скоринговая система имеет в своей основе математическую модель, которая даёт возможность сравнивать клиентов с различными признаками и принимать решение на основании формализованных критериев, непосредственно связанных с критерием доходности клиента, Критерии "хорошего" и "плохого" клиента могут быть разными в зависимости от политики банка. Таким образом мы имеем классификационную задачу, в которой исходя из имеющихся данных нужно получить функцию, которая наиболее точно разделяет выборку на плохих/хороших клиентов. Методы самой классификации довольно разнообразны и выбор того или иного метода зависит от цели создания модели.
1.2.1 Статистические методы
Статистические классификаторы данных в общем случае основаны на дискриминантном анализе. Стоит отметить, что они наиболее распространены. Чаще всего используется линейная многофакторная регрессия:
(1.1)
где р - вероятность попадания в группу;
весовой коэффициент;
характеристика клиента.
Рисунок 2 - Блок-схема метода нахождения коэффициентов уравнения регрессии
Недостаток данной модели заключается в том, что в результате моделирования получается слишком сложная модель, поэтому найти её параметры с достаточной точностью невозможно. У логистической регрессии такого недостатка нет. Логистическую регрессию запишем в виде формулы (1.2):
Чтобы применить логистическую регрессию требуются более сложные расчеты для получения весовых коэффициентов и, значит, более полная компьютерная база и мощное компьютерное обеспечение. Но на сегодняшний день компьютерные технологии достаточно развиты, и логистическая регрессия является основным инструментом построения скоринговых систем. Ещё одно преимущество логистической регрессии в том, что она может разделять клиентов как на две группы (0- плохой, 1- хороший), так и на несколько групп (1, 2, 3, 4 группы с соответственными уровнями риска). Отметим, что абсолютно все регрессионные методы чувствительны к корреляции между характеристиками, поэтому модель не должна содержать сильно коррелированные независимые переменные.
1.2.2 Линейное программирование
В моделировании скоринга также используют линейное программирование. Очевидно, что абсолютно точно классифицировать клиентов на плохих и хороших невозможно, но можно минимизировать ошибку. Тогда задача формулируется следующим образом: найти такие весовые коэффициенты, при которых ошибка будет минимальной.
Рисунок 3 - Блок-схема поиск весовых коэффициентов
1.2.3 Нейронные сети. Дерево классификаций
Нейронная сеть и дерево классификации - это такие системы, которые объединяют клиентов в группы, в которых уровень риска одинаков и максимально отличается от уровня риска других в других группах. В основном метод нейронных сетей используют для анализа небольших выборок, например, при анализе поведения юридических лиц, так как в этом клиентском сегменте выборки чаще всего меньшего размера, чем у физических лиц. Но, благодаря их способности выявлять нестандартные ситуации, наиболее результативной областью их использования стало выявление мошенничества с кредитными/дебетовыми банковскими картами.
Рисунок 4 - Блок-схема вычисления выходного значения нейрона
1.2.4 Генетический алгоритм
В основе генетического алгоритма лежит алгоритм, сходный с процессом естественного отбора в биологии. Этот алгоритм строится таким образом: есть набор каких-то классификационных моделей, они "смешиваются", "скрещиваются", в результате получаются "мутировавшие" модели, среди которых выбирается "сильнейшая", то есть модель, которая даёт самую точную классификацию.
1.2.5 Метод ближайшего соседа
В методе ближайшего соседа расстоянию между клиентами присваивается какая-то единица измерения. Так получается "карта клиентов", то есть все клиенты из выборки определены в пространстве. И следующий новый клиент классифицируется в соответствии со своим "окружением": кого рядом больше- хороших или плохих клиентов.
Банки в своих скоринговых моделях обычно используют комбинацию из нескольких разных методов. Так как модели основаны на приватных данных клиентов и вообще, на их разработку тратят большие средства, скоринговые системы хранят в секрете. Из-за этого достаточно сложно сравнивать эффективность и точность таких разработок. У нас есть только возможность приблизительно сравнить и сделать выводы, основываясь на научных публикациях.
1.2.6 Этапы построения скоринга
1. Подготовка исходных данных для расчетов.
Для создания скоринга необходима обучающая выборка- выборка данных о клиентах достаточно большого объёма за продолжительный период времени. От репрезентативности полученной выборки зависит насколько точной будет оценка параметров модели скоринга и, следовательно, предиктивная мощность скорингового алгоритма (эффективность). Репрезентативность выборки определяется тем, полнотой присутствия отрицательных и положительных прецеденты. Но, исходя из постановки задачи, один и тот же элемент обучающей выборки может быть определён как положительным, так и отрицательным, а также вообще не подходить для включения. При задаче оценки комиссионных доходов в качестве положительных прецедентов следует рассматривать все случаи, где сумма комиссий больше либо равно 10000, а отрицательных - все остальные. От постановки задачи скоринга зависит не только способ разбивки обучающей выборки на положительные и отрицательные прецеденты, но и множество значимых факторов. Когда карточных продукт продан - человек становится клиентом банка, и банку доступна дополнительная информация, например, о среднем количестве транзакций в сутки. Кроме того, некоторые из существенных характеристик клиента просто могут измениться за период действия карты (например, доход или семейное положение).
2. Выбор алгоритма скоринга.
Основное различие между методами классификации заключается в подходах к способам сегментации прецедентов обучающей выборки. Цель самой сегментации - определить значимые факторы, которые влияют на вероятности возможных исходов сделок, что возможно, если между сконструированными сегментами есть возможность найти в явном виде статистически значимое различие в соотношении отрицательных и положительных прецедентов. Скоринг-баллом может быть рассчитанная эмпирически доля отрицательных прецедентов в сегменте. И тогда задача расчета скоринг-балла претендента на банковский продукт равносильна задаче отнесения претендента к одному из построенных сегментов, что и делается в результате применения построенных скоринговых алгоритмов к новому апликанту.
3. Построение фронтального приложения.
После того как алгоритм скоринга разработан, он должен быть встроен во фронтальную систему. Такая фронтальная система может использоваться для поддержки принятия решений операционистом в офисе, когда он рассматривает заявки претендента на получение банковского продукта, или для самодиагностики c помощью web-сервиса, представленного на сайте банка в Интернете. Во фронтальной системе решается задача - по информационным признакам претендента определить его скоринг-балл и сравнить его с баллом отсечения.
4. Организация мониторинга адекватности скорингового алгоритма.
Из-за некоторых факторов и в силу объективных причин по прошествии времени предиктивная мощность скорингового алгоритма достаточно сильно снижается и нужно выполнять повторные расчеты скоринговых алгоритмов и изменения процедуры скоринга в приложениях. Выбор момента расчёта новой скоринговой модели- это самостоятельной задачей, которая решается на основе определённых статистических критериев. Однако если в банке на участок скоринг-аналитики выделен специалист на постоянной основе, то перерасчет скоринговых алгоритмов может осуществляться с любой периодичностью по мере пополнения базы данных новыми клиентами.
1.3 Данные для скоринговой модели
1.3.1 Формирование базы данных клиентов
Первым шагом для создания хорошей скоринг модели является формирование качественной обучающей выборки. Для формализации процесса дадим несколько определений.
Обучающая выборка (training sample) - это выборка, по которой производится оптимизация параметров модели зависимости. Оценка качества модели, сделанная по выборке Xm, если по ней же делали построение модели, как правило, оказывается оптимистически смещённой. Такое явление называют переобучением. На практике оно встречается очень часто. Проверка модели на независимых данных, которые не использовались для обучения, даёт хорошую эмпирическую оценку качества построения этой модели.
Тестовая (или контрольная) выборка (test sample) - это выборка, по которой оценивают качество модели. Оценка, сделанная по тестовой выборке, будет несмещённой, если обучающая и тестовая выборки независимы. Тогда сделанную по тестовой выборке оценку качества можно использовать для выбора лучшей модели. Однако тогда она снова окажется оптимистически смещённой. И для того, чтобы получить несмещённую оценку выбранной модели, нужно создать третью выборку.
Проверочная выборка (validation sample) - это выборка, по которой выбирают наилучшую модель из множества построенных по обучающей выборке моделей.
Для создания модели комиссионных доходов рассмотрим следующие признаки клиента: количество карт, использование смс банка, средняя сумма операций в день, средний оборот в день, среднее количество операций в день, использование Телебанка, количество выписок об операциях по счету. Каждому клиент присваивается индивидуальный код для идентификации- ID.
1.3.2 Отбор признаков
Немаловажной частью при решении задачи является умение правильно выявить, отобрать или создать признаки. В англоязычной литературе введены такие понятия как Feature Selection и Feature Engineering. Future Engineering- довольно творческий процесс и основан на интуиции и экспертных знания. Для Feature Selection же существует достаточно большое количество готовых алгоритмов. Например, "древесные" алгоритмы допускают расчет информативности признаков. Все остальные методы основаны на переборе подмножеств признаков, конечная цель которых- найти наилучшее подмножество, на которых модель даст наилучший результат. К таким алгоритмам перебора относится Recursive Feature Elimination алгоритм.
Так же достаточно эффективен подход последовательного исключения признаков с помощью дискриминантного анализа. Дискриминантный анализ - раздел вычислительной математики, в котором представлен набор методов статистического анализа для решения задач распознавания образов, использующийся для принятия решения о том, какие переменные "дискриминируют" возникающие наборы данных, то есть разделяют на группы. В дискриминантном анализе группы априори известны. Наиболее общее применение дискриминантного анализа- включение в исследование многих переменных с целью определения тех из них, которые наилучшим образом разделяют совокупности между собой. Существуют разные подходы к реализации метода.
В пошаговом анализе дискриминантных функций модель дискриминации строится по шагам: на каждом последующем шаге рассматриваются все переменные и находится та, которая вносит наибольший вклад в различие между подмножествами. Эта переменная включается в модель на текущем шаге, и алгоритм переходит на следующий шаг.
Если двигаться в обратном направлении, сначала все переменные включаются в модель, а затем на каждом шаге "отбрасывается" та, которая вносит наименьший вклад в предсказания. Тогда в результате успешного анализа остаются только те переменные в модели, которые вносят наибольший вклад в дискриминацию. В данной работе будем использовать пошаговый анализ с исключением.
1.3.3 Стандартизация данных
Известно, что большая часть градиентных методов, на которых основаны большинство алгоритмов машинного обучения, достаточно чувствительны к шкалированию данных. Поэтому перед тем, как загрузить в алгоритм данные, организуется нормализация или стандартизация данных. Нормализация- это замена обычных признаков так, чтобы каждый из них попадал в диапазон от 0 до 1. Стандартизация- преобразование данных таким образом, что у каждого признака среднее 0 и дисперсия 1.
1.4 Расчёт доходности клиента
1.4.1 Требования к исходной информации
Комиссионные доходы банка - это доходы, которые банк взымает за совершение операций своими клиентами, например, плата за банковский перевод, комиссия при осуществлении платежей и тому подобное. Комиссионные доходы относятся к непроцентным доходам банка. Комиссионный доход банка - это одна из составляющих чистого операционного дохода.
Одна из главных предпосылок построения корректной модели- достаточный объем информации. Количество данных может варьироваться в зависимости от конкретных моделей, но в целом данные должны удовлетворять требованиям статистической значимости и случайности. Данные об определенном типе клиентов необходимо исключить из исходной информационной базы. К таким клиентам можно отнести владельцев зарплатных и корпоративных карт.
Для определения минимального объема выборки можно использовать формулу (1.3) интервальной оценки генеральной доли:
где P - оцениваемая доля "плохих" клиентов в генеральной совокупности;
w - доля "плохих" клиентов в тестовой выборке;
n - объем изначальной исторической выборки;
zг - значение стандартного нормального закона распределения, определяемое в зависимости от выбранного уровня надежности г.
Комиссии взымаются согласно установленным тарифам. Так же следует учесть периодичность комиссий. Например, комиссия за выпуск карты- единоразовая, комиссия за обслуживание карты- ежегодная, а комиссия за выдачу наличных в чужих АТМ взымается при совершении операции. Поэтому для расчёта комиссионных доходов будем брать средневзвешенный доход клиента за определённый период времени по формуле (1.4):
,
где P - комиссионный доход;
ki - комиссия;
T- период времени, за который взымается комиссия;
N - количество дней с момента активации карточного продукта.
1.4.2 Этапы расчёта доходности
1. Создание базы данных клиентов, в которой содержится:
· уникальный идентификатор клиента (ID);
· тип комиссии;
· количество комиссий;
· дата выдачи карты.
2. Расчёт размеров комиссий владельцев карточного продукта.
Каждому типу комиссии ставится в соответствие сумма комиссии согласно установленным тарифам банка. По дате выдачи карты рассчитывается количество дней действия карточного продукта. По каждому типу комиссии по формуле (1.4) считается комиссионный доход.
3. Расчёт общего комиссионного дохода банка от клиента.
Общий комиссионный доход банка от одного клиента- это сумму всех комиссионных доходов. В результате для каждого клиента из выборки рассчитана общая сумма комиссий.
Глава 2. Прототип скоринговой системы комиссионных доходов
2.1 Описание модели
Логистическая регрессия - самая актуальная статистическая модель для построения скоринговых моделей при бинарной зависимой переменной. Математически модель логистической регрессии показывает зависимость логарифма шанса (логита) от линейной комбинации независимых переменных и может быть представлена в виде формулы (2.1):
где pi - вероятность попадания к "плохим" клиентам i-го клиента;
xi(j) - значение j-ой независимой переменной;
b0 - независимая константа модели;
bj - параметры модели;
еi - компонент случайной ошибки.
Формула (2.1) выражает линейную зависимость вероятности попадания клиента к "плохим" от значений независимых переменных. Константа в модели показывает уровень вероятности наступления события, если все независимые переменные равны нулю. Коэффициенты при независимых переменных отражают степень их влияния на вероятность попадания в логарифмической шкале и используются для построения скоринговой модели. Значение константы в модели зависит от распределения зависимой переменной в данных по категориям.
Для интерпретации коэффициентов модели логистической регрессии принято использовать экспоненциальную форму записи:
(2.2)
Коэффициенты при включении непрерывных количественных переменных в модель логистической регрессии будут показывать среднее изменение логарифма шанса попадания в группу плохих клиентов при изменении независимой переменной на единицу своего измерения при неизменности остальных переменных. Коэффициенты в экспоненциальной форме будут показывать насколько в среднем изменятся попадания в группу плохих клиентов при изменении независимой переменной на единицу своего измерения при неизменности остальных переменных. Если коэффициент регрессии положителен, то его экспонента будет больше единицы и вероятности будут возрастать, если коэффициент отрицателен - экспонента будет меньше единицы, и вероятности будут убывать. Если в модель будет включена бинарная независимая переменная, то коэффициент регрессии в экспоненциальной форме при фиктивной переменной будет показывать соотношение шансов попадания в группу плохих клиентов при наличии фактора, отражаемого бинарной независимой переменной, по сравнению с его отсутствием.
2.2 Алгоритм отбора признаков
Изначально в модель включены все признаки и постепенно алгоритм осуществляется "отсеивание" тех из них, которые не прошли проверку на значимость.
Рисунок 5 - Блок-схема метода обратного исключения.
2.3 Алгоритм для решения задачи классификации
В качестве алгоритма классификации будем использовать логистическую регрессию. Логистическая регрессия является частный случай обобщенной линейной регрессии. Полагаем, что зависимая переменная принимает два значения (0 и 1) и имеет биномиальное распределение. В данному случае перед нами стоит задача восстановления логистической регрессии.
Пусть задана выборка на множестве m пар (xi, yi), где xi ? Rn и y?{0,1}. Рассмотрим модель логистической регрессии, согласно которой свободные переменные x и зависимая переменная y связаны зависимостью:
(2.3)
где
Введём обозначения:
,
Без ограничения общности обозначим выборку свободных переменных:
Нужно найти значение вектора параметров такое, что оно бы доставляло минимум норме вектора невязок
(2.4)
Будем искать оптимальные параметры последовательно итерационным методом наименьших квадратов с использованием взвешивания элементов выборки. Приведенный ниже алгоритм основан на алгоритме Ньютона-Рафсона. В начале алгоритма зададим параметры начального приближения: скаляр
(2.5)
где
- среднее для зависимой переменной и значения для .
Далее создадим итерационную процедуру.
§ С использованием вектора параметров вычисляется переменная
(2.6)
§ Вычисляется восстановленное значение выборки зависимой переменной
(2.7)
§ Вычисляется вектор значений зависимой переменной для текущего шага линейной регрессии
(2.8)
где - вектор весов значений зависимой переменной.
§ Решается задача наименьших квадратов с взвешиванием элементов выборки. При этом больший вес приобретают те элементы, которые имеют большую невязку
(2.9)
где диагональная матрица весов .
Выход из процедуры происходит, когда норма разности векторов параметров на каждой итерации не больше заданной константы:
(2.10)
Глава 3. Программа
3.1 Обоснование выбора инструмента машинного обучения
Как было указано ранее, существует достаточное количество сред и алгоритмов для создания скоринга. Главными инструментами на сегодняшний день являются такие среды программирования как Python и R. Язык R разрабатывался именно на для потребностей статистиков (особенно доставляют возможности визуализации данных на R), а Python известен своим понятным адекватным синтаксисом. R превосходно подходит для исследовательской работы, удобен для практически любого варианта анализа данных, так как в языке R есть масса пакетов и готовых тестов, которые обеспечивают нужный инструментарий для быстрого анализа. R даже можно использовать для решения в области больших данных. Python удобен в случаях, когда задачи, связанные с анализом данных, используются в веб-приложениях, или если статистический код требуется инкорпорировать в рабочую базу данных. Так как Python- это полнофункциональный язык программирования, он замечательно подходит для реализации алгоритмов для их последующего практического применения.
Но, так как данные среды разработки пока не дошли до нашего вуза, а также ввиду ограниченности времени и ресурсов, будем использовать знакомые средства для анализа и разработки. Дискриминантный анализ проведём в пакете "Statistica". Так как значимые характеристики клиента остаются постоянными, это будет иметь смысл: один раз проанализировать поведение и выявить значимые переменные. В результате проведённого анализа с последовательным исключением признаков из 7 характеристик: количество карточных продуктов, использование СМС-банк, средняя сумма операций в день, средний оборот в день, среднее количество операций в день, использование Телебанка, выписка об операциях по счету, значимыми оказались 4: количество карточных продуктов, использование СМС-банк, средняя сумма операций в день, средний оборот в день. Далее алгоритм логистической регрессии реализуем в среде Mathlab.
3.2 Листинг программы
3.2.1 Модуль формирования данных
dummy = dlmread('data.csv', ';');
X = dummy(:, 1:end-1); % this indices are under convention
y = dummy(:, end);
clear dummy % no needs to keep a big storage
X; y; % note that y contains only 1s and 0s
idx1 = find(y == 0); % object indices for the 1st class
idx2 = find(y == 1);
% no more variables are needed
h = figure; hold on
plot(X(idx1,1), X(idx1,2), X(idx1,3), X(idx1,4), 'r*');
plot(X(idx2,1), X(idx2,2), X(idx2,3), X(idx2,4),'b*');
axis tight
xlabel('x_1');
ylabel('x_2');
% close(h);
3.2.2 Модуль классификатора
bHat = glmfit (X,y,'binomial');
yHat = glmval(bHat, X, 'logit'); % variant of classification
yHat = 1./(1+exp(-[ones(size(X,1),1), X] *bHat)); % variant of classification
% formed as an inline function
classify = inline('1./(1+exp(-[ones(size(X,1),1), X] *b))', 'b', 'X');
% separation hyperplane, formed as a function (here it is a line)
separateXLim = inline('(-b(1)- YLim*b(2))/b(3)+1500', 'b','YLim');
% example of classification model usage
yHat = classify(bHat,X);
% the objects could be surrounded by circles
idx1 = find(yHat < 1/2); % object indices for the 1st class
idx2 = find(yHat >= 1/2);
plot(X(idx1,1), X(idx1,2),X(idx1,3), X(idx1,4), 'ro');
plot(X(idx2,1), X(idx2,2), X(idx2,3), X(idx2,4),'bo');
axis tight
% or separated by plane
plot(separateXLim(bHat,YLim), YLim, 'b-');
axis tight
3.2.3 Вывод результатов работы программы
Таблица 1 - Результат отбора критериев в пакете "Statistica"
Таблица 2 - Классификация клиентов
Observed |
1 |
2 |
||
1 |
G_2:1 |
G_2:1 |
G_1:0 |
|
2 |
G_2:1 |
G_2:1 |
G_1:0 |
|
3 |
G_2:1 |
G_2:1 |
G_1:0 |
|
4 |
G_1:0 |
G_1:0 |
G_2:1 |
|
5 |
G_2:1 |
G_2:1 |
G_1:0 |
|
6 |
G_2:1 |
G_2:1 |
G_1:0 |
|
7 |
G_2:1 |
G_2:1 |
G_1:0 |
|
8 |
G_2:1 |
G_2:1 |
G_1:0 |
|
* 9 |
G_2:1 |
G_1:0 |
G_2:1 |
|
10 |
G_2:1 |
G_2:1 |
G_1:0 |
|
11 |
G_1:0 |
G_1:0 |
G_2:1 |
|
12 |
G_2:1 |
G_2:1 |
G_1:0 |
|
13 |
G_2:1 |
G_2:1 |
G_1:0 |
|
14 |
G_1:0 |
G_1:0 |
G_2:1 |
|
15 |
G_2:1 |
G_2:1 |
G_1:0 |
|
16 |
G_2:1 |
G_2:1 |
G_1:0 |
|
17 |
G_1:0 |
G_1:0 |
G_2:1 |
|
18 |
G_2:1 |
G_2:1 |
G_1:0 |
|
19 |
G_1:0 |
G_1:0 |
G_2:1 |
|
20 |
G_2:1 |
G_2:1 |
G_1:0 |
|
21 |
G_2:1 |
G_2:1 |
G_1:0 |
|
22 |
G_1:0 |
G_1:0 |
G_2:1 |
|
23 |
G_2:1 |
G_2:1 |
G_1:0 |
|
24 |
G_1:0 |
G_1:0 |
G_2:1 |
|
25 |
G_2:1 |
G_2:1 |
G_1:0 |
|
26 |
G_1:0 |
G_1:0 |
G_2:1 |
|
27 |
G_2:1 |
G_2:1 |
G_1:0 |
|
28 |
G_1:0 |
G_1:0 |
G_2:1 |
|
29 |
G_1:0 |
G_1:0 |
G_2:1 |
|
30 |
G_1:0 |
G_1:0 |
G_2:1 |
|
31 |
G_2:1 |
G_2:1 |
G_1:0 |
|
* 32 |
G_2:1 |
G_1:0 |
G_2:1 |
|
* 33 |
G_2:1 |
G_1:0 |
G_2:1 |
|
34 |
G_2:1 |
G_2:1 |
G_1:0 |
|
* 35 |
G_2:1 |
G_1:0 |
G_2:1 |
|
36 |
G_2:1 |
G_2:1 |
G_1:0 |
|
37 |
G_2:1 |
G_2:1 |
G_1:0 |
|
38 |
G_1:0 |
G_1:0 |
G_2:1 |
|
39 |
G_1:0 |
G_1:0 |
G_2:1 |
|
40 |
G_2:1 |
G_2:1 |
G_1:0 |
|
41 |
G_1:0 |
G_1:0 |
G_2:1 |
|
42 |
G_1:0 |
G_1:0 |
G_2:1 |
|
43 |
G_1:0 |
G_1:0 |
G_2:1 |
|
44 |
G_1:0 |
G_1:0 |
G_2:1 |
|
45 |
G_1:0 |
G_1:0 |
G_2:1 |
|
46 |
G_1:0 |
G_1:0 |
G_2:1 |
|
* 47 |
G_2:1 |
G_1:0 |
G_2:1 |
|
* 48 |
G_1:0 |
G_2:1 |
G_1:0 |
|
49 |
G_1:0 |
G_1:0 |
G_2:1 |
|
50 |
G_1:0 |
G_1:0 |
G_2:1 |
|
51 |
G_1:0 |
G_1:0 |
G_2:1 |
|
52 |
G_1:0 |
G_1:0 |
G_2:1 |
|
53 |
G_1:0 |
G_1:0 |
G_2:1 |
|
54 |
G_1:0 |
G_1:0 |
G_2:1 |
|
55 |
G_1:0 |
G_1:0 |
G_2:1 |
|
56 |
G_2:1 |
G_2:1 |
G_1:0 |
|
57 |
G_1:0 |
G_1:0 |
G_2:1 |
|
58 |
G_1:0 |
G_1:0 |
G_2:1 |
|
59 |
G_1:0 |
G_1:0 |
G_2:1 |
|
60 |
G_1:0 |
G_1:0 |
G_2:1 |
|
61 |
G_1:0 |
G_1:0 |
G_2:1 |
|
62 |
G_1:0 |
G_1:0 |
G_2:1 |
|
63 |
G_1:0 |
G_1:0 |
G_2:1 |
|
64 |
G_1:0 |
G_1:0 |
G_2:1 |
|
65 |
G_1:0 |
G_1:0 |
G_2:1 |
|
66 |
G_1:0 |
G_1:0 |
G_2:1 |
|
67 |
G_1:0 |
G_1:0 |
G_2:1 |
|
68 |
G_1:0 |
G_1:0 |
G_2:1 |
Таблица 3 - Параметры модели
Коэффициенты |
||
Y-пересечение |
0,043446277 |
|
Переменная X 1 |
0,223607191 |
|
Переменная X 2 |
0,240639858 |
|
Переменная X 3 |
-0,00011345 |
|
Переменная X 4 |
0,000050885 |
3.2.4 Рисование графиков
Рисунок 6 - Результаты работы программы
Глава 4.результаты работы программы
4.1 Параметры модели
С помощью алгоритма были сформированы статистически значимые показатели, с помощью которых были достоверно классифицированы наблюдения обучающей выборки. Полученные на основе обучающей выборки коэффициенты разделяющей гиперплоскости:
Таблица 4 - Коэффициенты логистической регрессии
Коэффициенты |
||
Количество банковских продуктов |
0,223 |
|
Использование СМС банка |
0,241 |
|
Средняя сумма операции в день |
-0,00011 |
|
Средний оборот средств на счёте |
0,000051 |
4.2 Классификация объектов
Из 39 наблюдений о "плохих" клиентах было неправильно классифицировано только одно. И вероятность правильного распознавания составила 97%. Из 31 наблюдения о "хороших" клиентах были неправильно классифицированы пять. Вероятность правильного распознавания составила 83%. Средняя вероятность распознавания равно 91%. Таким образом вероятность оказалась выше 90%, следовательно, полученная с помощью логистической регрессии математическая модель может считать достаточно хорошей для предсказания комиссионного дохода от клиента с помощью скоринговой системы.
Коэффициенты при показателях количество банковских продуктов, использование СМС банка, средний оборот средств на счёте - положительны. Следовательно, для увеличения комиссионных доходов клиенту следует организовывать выгодные условия для открытия дополнительных банковских продуктов и предоставлять наиболее оптимальные тарифы на СМС банк и транзакции по картам. Коэффициент характеристики средняя сумма операции в день оказался отрицательным. То есть, чем меньше сумма транзакции по карте- тем меньший доход получает банк, что логично. Следовательно, здесь имеем обратную зависимость.
Заключение
банк скоринговый комиссионный доход
Комиссионный доход банка на сегодняшний день во многом зависит скорости и качества принятых решений. Хорошая скоринговая модель не только позволяет максимизировать доход от текущих клиентов, но и даёт преимущество перед другими банками в плане привлечения новых клиентов. Разработка подобной системы должна быть основана на понимании бизнес- процессов банка и клиентопотока.
В ходе проделанной работы были решены следующие задачи:
· изучены методы отбора признаков и их классификации;
· разработана экономико-математическая модель и алгоритм для определения вероятности попадания клиентов в один из классов;
· реализован разработанный алгоритм в среде программирования Mathlab;
· в результате компьютерного моделирования получили адекватную модель, достоверность которой составляет 91%, так как задача достаточно сложная - достаточная точность будет 90%;
· создан прототип скоринговой системы комиссионных доходов банка.
Скоринговая система представляет собой инструмент для принятия решений, состоящий из баз данных клиентов, строго согласованных задач и методов и программных средств, которые позволяют предсказать поведение и оценить риски, а также на основе полученной на выходе информации принимать решения. Таким образом, на основании математической модели и разработанной компьютерной программы создаётся система для максимизации комиссионных доходов от физических лиц.
В европейских странах такой подход к принятию решений широко распространён, накоплены большие объёмы информации для анализа и достоверность скоринга достаточно высока. В России внедрение скоринговых систем тормозится по субъективными причинами: недоверчивым отношением банковских служащих к математическим и статистическим методам. Среди преимуществ скоринговых систем на западе отмечают, во-первых, снижение уровня затрат на обслуживание банковских карточных продуктов, скорость и беспристрастность в принятии решений, возможность эффективного управления банковскими продуктами, снижение затрат на анализ. Данный прототип скоринговой системы позволит выйти банку на новый уровень обслуживания клиентов, повысить точность планирования затрат и увеличить доходы от комиссий.
Список литературы
1. Пантелеев А.В., Летова Т.А. Методы оптимизации в примерах и задачах. -М.: Высшая школа, 2005.
2. Lachin J.M. Biostatistical Methods: The Assessment of Relative Risks. 2nd ed. Hoboken, NJ: Wiley, 2011.
3. Новичков Н.В. Направление эволюции оценки розничных рисков. - М.: Наука, 2014. - 132 с.
4. 11. Тер-Крикоров, А.М. Оптимальное управление и математическая экономика / А.М. Тер-Крикоров - М.: Наука, 1977. - 216 с.
5. Smola A., Schoelkopf B. A tutorial on support vector regression: Tech. Rep. NeuroCOLT2 NC2-TR-1998-030: Royal Holloway College, London, UK, 1998.
6. Lance G. N., Willams W. T. A general theory of classification sorting strategies. 1. hierarchical systems // Comp. J. - 1967. - no. 9. - Pp. 373-380.
7. Durbin R., Rummelhart D. E. Product units: A computationally powerful and biologically plausible extension to backpropagation networks // Neural Computation. - 1989. - Vol. 1, no. 4. - Pp. 133-142.
8. Шлезингер М., Главач В. Десять лекций по статистическому и структурному распознаванию. - Киев: Наукова думка, 2004
9. Хардле В. Прикладная непараметрическая регрессия. - М.: Мир, 1993.
10. Закс Ш. Теория статистических выводов. - М.: Мир, 1975
11. http://statsoft.ru/solutions/tasks/scoring/
12. http://www.machinelearning.ru/wiki/images/6/6d/Voron-ML-1.pdf
Размещено на Allbest.ru
Подобные документы
Сущность и классификация операций банковских услуг как источников комиссионных доходов банка. Анализ влияния комиссионных доходов на общий доход банка на примере АКБ "Приватбанк". Перспективы развития банковских услуг и увеличения комиссионных доходов.
дипломная работа [2,4 M], добавлен 07.07.2010Оценка и риски кредитоспособности физического лица. Показатели кредитоспособности, используемые зарубежными коммерческими банками. Анализ кредитного портфеля банка. Недостатки и преимущества скоринговой системы оценки на примере банка "Возрождение".
дипломная работа [969,4 K], добавлен 15.07.2015Кредитная политика как основной инструмент достижения стратегических целей коммерческого банка. Сравнительная характеристика мирового и российского опыта в оценке кредитоспособности заемщиков. Основные принципы скоринговой системы, ее недостатки.
дипломная работа [980,5 K], добавлен 05.01.2011Принципы организации безналичных расчетов в коммерческом банке. Методология и нормативно-правовое обеспечение расчетно-кассового обслуживания корпоративных клиентов банка ОАО "Уралсиб". Анализ комиссионных доходов и расходов коммерческой организации.
дипломная работа [407,9 K], добавлен 02.11.2012Кредитные риски в банковской системе. Скоринговые системы как средство минимизации кредитного риска. Методология построения скоринговых систем. Оценка эффективности скоринговой системы. Развитие системы бюро кредитных историй.
реферат [18,4 K], добавлен 09.12.2006Определение понятия, изучение целей и раскрытие задач кредитного скоринга как инструмента оценки кредитоспособности физических лиц, его перспективы в России. Построение скоринговой модели оценки кредитоспособности клиентов на примере ООО "ХКФ Банк".
курсовая работа [401,2 K], добавлен 07.08.2013Структура управления и основы организации деятельности исследуемого банка. Кредитование юридических и физических лиц, их сравнительная характеристика, анализ доходов, полученных данным финансовым учреждением. Организация бухгалтерского учета в банке.
отчет по практике [77,2 K], добавлен 07.10.2014Общая характеристика доходов и расходов учреждений Национального банка Украины. Анализ, учет и контроль доходов и расходов учреждений Национального банка Украины. Проблемы и перспективы развития банковской системы Украины.
дипломная работа [97,1 K], добавлен 14.08.2002Анализ доходов и расходов коммерческого банка на примере ОАО "Альфа-Банк". Динамика и структура доходов от банковских операций и других сделок банка. Динамика и структура процентных доходов банка. Динамика и структура операционных доходов банка.
отчет по практике [1,5 M], добавлен 22.06.2015Источники доходов коммерческого банка и их классификация. Характеристика и критерии классификации доходов банка. Процентная маржа как источник прибыли, оценка ее уровня. Оценка структуры и уровня доходов и расходов банка. Формирование прибыли банка.
презентация [22,7 K], добавлен 01.05.2014