Анализ показателя реадмиссии

Анализ исследований в области лечения диабета. Использование классификаторов машинного обучения для анализа данных, определение зависимостей и корреляции между переменными, значимых параметров, а также подготовка данных для анализа. Разработка модели.

Рубрика Математика
Вид дипломная работа
Язык русский
Дата добавления 29.06.2017
Размер файла 256,0 K

Отправить свою хорошую работу в базу знаний просто. Используйте форму, расположенную ниже

Студенты, аспиранты, молодые ученые, использующие базу знаний в своей учебе и работе, будут вам очень благодарны.

На графике слева направо представлен результат работы всех классификаторов (см. рис. 8):

1. Наинвый баесовский классификатор - точность 0,28

2. Метод ближайших соседей - точность 0,79

3. Метод случайного леса - точность 0,83.

4. Логистическая регрессия - точность 0,85

Рисунок 8. Кросс-валидация для всех классификаторов

Таким образом, по результатам проведенной кросс-валидации наилучшим методом является логистическая регрессия. Низкий результат точности классификатора наивный Баесовский классификатор может быть обусловлен размером выборки и количеством параметров, так как данный метод в основном хорошо работает только на маленьких выборках.

Помимо метода кросс-валидации для проверки качества классификатора используются ROC-кривые - графики, показывающие соотношение неправильно определенных позитивных случаев к корректно определенным позитивным случаям (flase positive rate и true positive rate). В связи с тем, что в данной выборке целевая переменная принимает больше, чем два значения, то необходимо строить ROC-кривую для каждого из значений целевой переменной, а потом представлять на графике среднее для всех значений зависимого параметра. Данный алгоритм реализуется следующим образом:

target = diabetic_data.readmitted - определяем целевую переменную

# Binarize the output - представляем значения целевой переменной в бинарном виде

target = label_binarize (target, classes=[0, 1, 2])

n_classes = target.shape[1]

for i in range (n_classes): - запускаем цикл для каждого значения целевой переменной

fpr[i], tpr[i], _= roc_curve([Применение классификатора] [:, i], y_score[:, i])

roc_auc[i] = auc (fpr[i], tpr[i])

Результат работы данного алгоритма представлен ниже (см. рис. 9):

Рисунок 9. ROC-кривые для классификаторов

Таким образом, и в анализе через ROC-кривые наилучшим образом себя показала именно логистическая регрессия. В связи с этим именно данный классификатор будет использоваться для предсказания целевой переменной.

Прежде, чем начать реализацию интерфейса для конечного пользователя, необходимо проверить и интерпретировать результат работы выбранного классификатора. Первым шагом, получаем коэффициенты линейной регрессии, далее необходимо провести интерпретацию полученных результатов, а также проверить значимость полученных коэффициентов с помощью t-статистики. В случае, если полученное значение статистики больше, чем табличное значение, то коэффициенты признаются значимыми. В данном случае все коэффициенты признаны статистически значимыми, так как значение t-статистики больше, чем (уровень значимости 0,01, степени свободы = 101470 (n-k-1)). Данные представлены в таблице 3 (синим выделены положительные коэффициенты, красным - отрицательные)

Таблица 3. Коэффициенты логистической регрессии

Параметр

Коэффициент

t-статистика

Интерпретация

Отделение

+0.00164492

7,44529

Слабая степень влияния. Пациенты, поступившие в кардиологическое отделение и отделение эндокринологии наиболее склонны к ухудшению состояния.

Пол

+ 0.02195529

5,98426

Мужчины более склонны к ухудшению состояния

Количество дней в госпитале

+0.00883695

8,991112

Степень влияния на реадмиссию очень слабое, однако наблюдается прямая зависимость между днями, проведенными в госпитале и последующим ухудшением состояния.

Заключение по визиту

+0.00937918

9,424847

Наблюдается прямая взаимосвязь между увеличением числа, указанного в заключении по визиту, и реадмиссией. Однако данные закодированы в случайном порядке, логическая интерпретация данных результатов затруднена.

Тест на глюкозу

+0.03859679

7,542266

Чем выше показатели теста на глюкозу, тем выше вероятность реадмиссии.

Вторичный диагноз

+0.07319994

12,02284

Аналогично первичному диагнозу существует прямая зависимость.

Количество препаратов

+0.08079777

12,551719

Большое количество назначенных препаратов говорит о вероятности реадмиссии. Может быть обусловлено тем, что человек в более плохом изначальном состоянии принимает большое количество лекарств, а не самим фактом назначения большого количества медикаментов.

Количество посещений до этого визита

+0.08866531

9,491827

В случае если пациент часто обращается в больницу, вероятность реадмиссии выше.

Возраст

+0.13933213

8,225969

Чем старше человек, тем больше вероятность реадмисии.

Первичный диагноз

+0.14479666

6,783833

В соответствии с группировкой заболеваний в классы, наиболее высокий риск реадмиссии у пациентов с заболеваниями системы кровообращения, пищеварения, а также поступивших с травмами.

Тест HbA1c

+0.81238387

11,538118

Чем выше показатели HbA1c, тем выше вероятность возвращения к ухудшенному состоянию. Степень влияния показателя высокая.

Раса

-0.06573962

10,986301

Европеоиды более склонны к ухудшению состояния

Изменение в принимаемых лекарствах

-0.09270197

5,295517

В случае корректировки принимаемых лекарств, вероятность реадмиссии меньше.

Количество других процедур

-0.10109088

7,705122

Чем больше процедур оказано пациенту, тем меньше вероятность реадмиссии. Коэффициенты у этого и предудущего параметра обусловлены тщательным подходом к лечению больного в случае оказания большого количества услуг.

Количество лабораторных тестов

-0.2510888

10,850467

Чем больше тестов сделано пациенту, тем меньше вероятность реадмиссии.

Тип поступления

-0.32507527

9,300183

Если человек поступил в экстренном случае, то вероятность ухудшения более велика.

Все медикаменты оказывают довольно слабое влияния на целевую переменную, однако прямая зависимость (принятие лекарства - реадмиссия) характерна для следующих медикаментов - глипизид и пиоглитазон, которые предназначены для снижения уровня гликированного гемоглобина в крови. Данная зависимость может быть обусловлена тем, что оба препарата имеют широкий список противопоказаний и побочных действий, а прекращение приема должно проходить под контролем лечащего врача.

Таким образом, наиболее весомыми факторами, влияющими на возможную реадмиссию являются пол, возраст, тип поступления в госпиталь, количество проведенных лабораторных тестов и процедур, первичный диагноз, а также результаты теста HbA1C. Последние три показателя прямо говорят о том, что тщательный подход к лечению больного может благоприятно сказаться на его состоянии после завершения лечения. Однако, несмотря на то, что остальные показатели оказывают не такое сильное влияние на целевую переменную, в интерфейсе пользователю необходимо вести все эти значения, для более точной работы модели. Более того, все полученные коэффициенты регрессии являются статистически значимыми, что доказывают показатели t-статистики каждого параметра.

3.5 Интерфейс пользователя

корреляция переменная диабет

Интерфейс пользователя выглядит следующим образом (см. рис. 10):

Рисунок 10. Интерфейс пользователя

Для запуска программы необходимо заполнить все имеющиеся поля - выбрать расу, тип поступления, заключение, отделение, первичный и вторичный диагноз из выпадающих списков; ввести возраст, количество дней в госпитале, количество проведенных тестов и процедур, количество принимаемых препаратов, количество амбулаторных посещений до данного визита, значение теста на глюкозу, а также теста HbA1C; отметить пол, а также принимаемые больным лекарства из предложенных в интерфейсе.

Введенные значения проверяются на корректность - выполняется проверка на соответствие типу данных (текстовый, числовой и т.д.) и на заполнение всех необходимых полей, также существует ограничение на длину символов, а именно:

1. Раса - выпадающий список, недоступно ввести собственное значение

2. Пол - необходимо обязательно поставить галочку в одно из полей

3. Возраст - числовое поле, не более 100 лет

4. Тип поступления - выпадающий список, недоступно ввести собственное значение

5. Заключение - выпадающий список, недоступно ввести собственное значение

6. Дней в госпитале - числовое поле

7. Отделение - выпадающий список, недоступно ввести собственное значение

8. Кол-во тестов - числовое значение

9. Кол-во процедур - числовое значение

10. Кол-во препаратов - числовое значение

11. Кол-во посещений до - числовое значение

12. Первичный диагноз - выпадающий список, недоступно ввести собственное значение

13. Вторичный диагноз - выпадающий список, недоступно ввести собственное значение

14. Тест на глюкозу - числовое значение

15. Тест HbA1c - числовое значение

16. Обязательные отметки на препараты

Все значения представлены для пользователя в удобном, текстовом виде, после ввода корректных данных, программа преобразует введенную информацию в формат, необходимый для анализа логистической регрессии.

После того, как пользователь ввел все данные и нажал кнопку «ОК», программа записывает все полученные значения в массив и выдает результат с помощью функции test.return = model_lr_5.fit([Массив_Данных]). Было проведено несколько тестов программы, во всех случаях выдавался логичный результат по реадмисии.

Например, для следующих значений (см. Таблицу 4) результат реадмиссии =2, то есть ожидается возвращение больного в период меньше 30 дней.

Таблица 4. Данные для теста программы

Поле

Значение

race

AfricanAmerican

gender

1

age

45

admission_type_id

1

discharge_disposition_id

1

time_in_hospital

9

num_lab_procedures

47

num_procedures

2

num_medications

17

number_outpatient

0

diag_1

Болезни эндокринной системы

diag_2

Болезни системы кровообращения

number_diagnoses

9

max_glu_serum

0

A1Cresult

0

metformin

1

repaglinide

1

nateglinide

1

chlorpropamide

1

glimepiride

1

acetohexamide

1

glipizide

1

tolbutamide

1

pioglitazone

1

acarbose

1

miglitol

1

troglitazone

1

tolazamide

1

examide

1

citoglipton

1

insulin

1

glyburide-metformin

1

glipizide-metformin

1

glimepiride-pioglitazone

1

metformin-rosiglitazone

1

metformin-pioglitazone

1

change

0

Полученный результат совпадает с ожидаемым, так как вторичным диагнозом больного является заболевание системы кровообращения, для него не проводился тест HbA1c, он принимает большое количество лекарств, среди которых есть глипизид и пиоглитазон, что говорит о высокой вероятности реадмиссии. Также были рассмотрены еще два примера классификации на основе разработанной модели. Во втором случае программа предсказывает результат реадмиссии 2, что также является наиболее плохим случаем (возвращение менее чем через 30 дней). Данный результат является валидным, так как наиболее значимые показатели указывают на то, что пациент действительно находится в группе риска - возрастная группа пациента (50-60 лет), мужской пол, болезни системы кровообращения, относительно небольшое количество проведенных процедур, наличие множества заболеваний и диагнозов, отсутствие проведения теста HbA1c, прием лекарств с побочными эффектами. В последнем же случае, пациент находится вне зоны риска, что и предсказывается моделью в качестве значения реадмиссии 0 - молодой возраст пациента, сопутствующие заболевания, не оказывающие влияние на течение диабета, раса, менее всего предрасположенная к осложнениям, большое количество проведенных процедур, корректное назначение лекарств, а также проведение теста HbA1C. При дальнейшем тестировании и валидации результатов работы программы некорректности в предсказывании показателя реадмиссии также обнаружено не было.

Таким образом, полученная модель позволяет в большинстве случаев корректно предсказывать факт реадмиссии на основе данных, вводимых конечным пользователем через интерфейс.

В качестве дальнейших перспектив усовершенствования интерфейса можно отметить добавление справки о заполнении необходимых полей, так как сейчас пользователь узнает о правиле, только в случае неправильно заполненных данных и появлении сообщения об ошибке. Также интерфейс можно дополнить вкладкой с рекомендациями по лечению и мониторингу диабета, полезными фактами о заболевании, доступностью лекарств в аптеках города и другой полезной информацией для людей с диабетом.

Заключение

В ходе данной работы была выполнено построение моделей с помощью нескольких алгоритмов классификации методов машинного обучения. В качестве инструментальных методов реализации поставленной задачи был выбран программный продукт PyCharm, представляющий собой среду разработки на языке программирования Python. В данной программе был проведен первоначальный анализ данных с помощью методов boxplot, позволяющий выявить выбросы выборки, а также такие показатели, как минимальное и максимальное значение, медиана; и анализа ANOVA, позволяющего вычислить зависимости и корреляции между переменными начального dataset. Для создания модели использовались наиболее подходящие классификаторы с оптимальными для данной выборки параметрами - метод рандомного леса, k-ближайщих соседей, наивный Баесовский классификатор и логистическая регрессия. Далее была проведена оценка точности работы классификаторов с помощью методов скользящего контроля (кросс-валидация) и ROC-кривых, наилучшим образом себя показала логистическая регрессия, поэтому именно она была выбрана для дальнейшего построения модели. После разработки модели были выявлены значимые показатели, влияющие на целевую переменную - реадмиссия зависит от первичного диагноза пациента, его пола, возраста, количества проведенных лабараторных испытаний, а также от назначенных лекарств, а именно глипизида и пиоглитазона. Для удобства конечных пользователей программы в среде разработки QtDesigner был разработан интерфейс пользователя, позволяющий предсказать реадмиссию для каждого нового пациента. В качестве дальнейших перспектив развития данной работы может быть рассмотрена рекомендательная модель для медицинских учреждений, позволяющая подобрать оптимальное лечение для каждого конкретного пациента. Рекомендательная модель включает в себя потенциал учета большого количества внешних факторов, влияющих на возможность применения рекомендуемых методов лечения (бюджетные средства, особенности географической области применения, доступность необходимых лекарственных средств и др.), а также непосредственно возможность подбирать для каждого пациента индивидуальную программу лечения.

Список литературы

1. Российская организация борьбы с диабетом.URL: http://www.dialand.ru/, дата обращения 23.02.2017

2. Материал для журнала «Клинико-лабораторный консилиум» №3-2009, URL: http://www.analytica.ru/news.php? id=103, дата обращения 24.02.2017

3. Всемирная организация здравоохранения. URL: http://www.who.int/diabetes/ru/, дата обращения 18.02.2017

4. Глобальное комьюнити по диабету. URL: http://www.diabetes.co.uk/what-is-hba1c.html, дата обращения 16.04.2017

5. И.И. Никберг, И.А. Чайковский, М.С. Ахманов. Лечение диабета в XXI веке. Реальность, мифы, перспективы. - СПб.: Вектор, 2011

6. Тюкавкина Н.А., Бауков Ю.И. Биоорганическая химия. - М.: Медицина, 1985. - 480 с.

7. Различия сахарного диабета, I и II типа (по Этцвиллеру, 1987)

8. David B. Sacks. Measurement of hemoglobin A1c. A new twist on the path to harmony. Diebates Care 35 (12): 2674-2680, 2012

9. Miedema K. Standardization of HbA1c and optimal range of monitoring. Scand J Clin Lab Invest Suppl 240: 61-72, 2005

10. Mogens Lytken Larsen, Mogens Hшrder and Erik F. Mogensen. Effect of long-term monitoring of glycosylated hemoglobin levels in insulin-dependent diabetes mellitus. N Engl J Med 323 (15):1021-1025, 1990

11. J. Ross Quinlan. C4.5: Programs for Machine learning. Morgan Kaufmann Publishers 1993

12. Лагутин М.Б. Наглядная математическая статистика. (Том 2, стр. 174) - М.: П-центр, 2003.

13. S. Murthy. Automatic construction of decision trees from data - A Multi-disciplinary survey, 1997

14. Загоруйко Н.Г. Прикладные методы анализа данных и значний. Новосибирск: ИМ СО РАН, 1999

15. Журавлев Ю.И. и пр. Математические методы. Программная система. Практические применения. - М.: Фазис, 2006

16. Валик В.Н., Червоненкис А.Я. Теория распознования образов - М.: Наука, 1974.

17. Trevor Hastie, Robert Tibshirani and Jerome H. Friedman. The elements of statistical learning - Stanford: Springer, 2009

18. Воронцов К.В. Комбинаторный подход к оценке качества обучаемых алгоритмов. - Математические вопросы кибернетики / Под ред. О.Б. Лупанов. - М.: Физматлит, 2004. - T. 13. - С. 5-36.

19. Hand, David J. Measuring classifier performance: A coherent alternative to the area under the ROC curve, Machine Learning, 77: 103-123, 2009

20. Сайт языка программирования python. URL: https://www.python.org/, дата обращения 08.05.2017

21. Сайт программного продукта PyCharm. URL: https://www.jetbrains.com/pycharm/, дата обращения 08.05.2017

22. Сайт программного продукта QtDesigner. URL: https://www.qt.io/ide/, дата обращения 08.05.2017

23. Кодировка ICD9. URL: http://icd9.chrisendres.com/, дата обращения 16.04.2017

24. Breiman, Leo (2001). Random forests. Machine Learning 45 (1): 5-32

25. Altman, N.S. (1992). An introduction to kernel and nearest-neighbor nonparametric regression. The American Statistician. 46 (3): 175-185.

26. Greene, William H. (2012). Econometric analysis (Seventh ed.). Boston: Pearson Education. pp. 803-807.

Размещено на Allbest.ru


Подобные документы

  • Проведение аналитической группировки и дисперсионного анализа данных, с целью количественно определить тесноту связи. Определение степени корреляции между группировочными признаками и вариационной зависимости переменной, обусловленной регрессией.

    контрольная работа [140,5 K], добавлен 17.08.2014

  • Понятие доверительного интервала, сущность и определение критерия согласия Пирсона. Особенности точечного оценивания неизвестных параметров, основные требования к оценкам и статистикам. Характеристика классической линейной модели регрессионного анализа.

    дипломная работа [440,4 K], добавлен 23.07.2013

  • Аппроксимация экспериментальных зависимостей методом наименьших квадратов. Правило Крамера. Графическое отображение точек экспериментальных данных. Аномалии и допустимые значения исходных данных. Листинг программы на С++. Результаты выполнения задания.

    курсовая работа [166,7 K], добавлен 03.02.2011

  • Основные задачи регрессионного анализа в математической статистике. Вычисление дисперсии параметров уравнения регрессии и дисперсии прогнозирования эндогенной переменной. Установление зависимости между переменными. Применение метода наименьших квадратов.

    презентация [100,3 K], добавлен 16.12.2014

  • Формирование массивов данных результатов контроля, представленных в форме матрицы. Основные статистические характеристики. Построение диаграмм. Определение коэффициентов точности технологического процесса и параметров контрольных карт, их построение.

    курсовая работа [539,6 K], добавлен 14.10.2011

  • Сущность, цели применения, основные достоинства метода канонических корреляций. Оценка тесноты связи между новыми каноническими переменными U и V. Максимальный канонический коэффициент корреляции, методика его расчета. Использование критерия Бартлетта.

    презентация [109,2 K], добавлен 10.02.2015

  • Определение математического ожидания и среднеквадратического отклонения с целью подбора закона распределения к выборке статистических данных об отказах элементов автомобиля. Нахождения числа событий в заданном интервале; расчет значения критерия Пирсона.

    контрольная работа [336,3 K], добавлен 01.04.2014

  • Нейросеть как набор специальных математических функций с множеством параметров, которые настраиваются в процессе обучения на прошлых данных. Пример определения внешнего вида ребенка по параметрам родителей с помощью нейросимулятора, анализ результатов.

    презентация [208,1 K], добавлен 05.04.2013

  • Основные этапы обработки данных натуральных наблюдений методом математической статистики. Оценка полученных результатов, их использование при принятии управленческих решений в области охраны природы и природопользования. Проверка статистических гипотез.

    практическая работа [132,1 K], добавлен 24.05.2013

  • Проверка адекватности линейной регрессии. Вычисление выборочного коэффициента корреляции. Обработка одномерной выборки методами статистического анализа. Проверка гипотезы значимости с помощью критерия Пирсона. Составление линейной эмпирической регрессии.

    задача [409,0 K], добавлен 17.10.2012

Работы в архивах красиво оформлены согласно требованиям ВУЗов и содержат рисунки, диаграммы, формулы и т.д.
PPT, PPTX и PDF-файлы представлены только в архивах.
Рекомендуем скачать работу.