Реконструкция генных сетей на основе данных микрочиповых экспериментов: отбор генов мишеней и сравнение различных моделей регуляции
Реконструкция работы клетки на уровне регуляции экспрессии генов и построение генных сетей на основе анализа данных микрочиповых экспериментов. Выявление генов, изменивших уровень экспрессии (по раку молочной железы). Моделирование генной регуляции.
Рубрика | Экономико-математическое моделирование |
Вид | дипломная работа |
Язык | русский |
Дата добавления | 24.09.2012 |
Размер файла | 2,6 M |
Отправить свою хорошую работу в базу знаний просто. Используйте форму, расположенную ниже
Студенты, аспиранты, молодые ученые, использующие базу знаний в своей учебе и работе, будут вам очень благодарны.
Далее приведены результаты работы методов сглаживания на данных по генной экспрессии дрожжей [15]. Данные представляют собой замеры по времени с разницей в 7 минут. Тест проходил следующим образом: сначала данные сглаживались, затем считалась производная от сглаженного профиля, после чего производная интегрировалась методом Дорманда-Принца. На рисунках 2 и 3 приведены графики, получившиеся после сглаживания ядром Епанченикова с шириной окна 8 и 14 соответственно. На рисунке 4 - соответствующие производные. Из-за характера сглаживающего ядра производные получаются разрывные, однако видно, что в случае ширины окна 8 (на 1 больше чем шаг сетки) восстановленные интегрированием профиль гена в целом повторяет динамику наблюдаемых данных, однако погрешность достаточно большая. Ядро с шириной окна 14, показывает неприемлемые результаты сглаживания самого профиля, однако при сглаживании производной, сглаженный профиль получается более гладким, чем при ширине окна 8. Это важно, т.к. в случае сглаживания с шириной окна 8, даже небольшой сдвиг по времени может сильно изменить параметры модели. На рисунках 5 и 6. Приведены результаты сглаживания сплайнами. Видно, что оба сплайна практически точно восстанавливают значения после интегрирования за счет своей гладкости, однако сплайн с постоянным весом сильнее сглаживает профиль. На рис. 8-10 приведен пример сглаживания ядром профиля другого ген. Здесь сам профиль имеет более простую структуру, так что использования ядерного сглаживания оправдано. В целом может показаться, что ядерное сглаживание однозначно хуже сплайнов, однако в решаемой нами задаче точность играет второстепенную роль, т.к. сами данные заданы с погрешность и не требуется точно подогнать один профиль к другому.
Рисунок 2. Ядро Епанечникова с шириной окна 8
Рисунок 5. "Коридорный" сплайн
Рисунок 6. Сплайн с постоянным весом
9. Стохастическая модель
Опишем стохастическую модель регуляции, предложенную в статьях [12] и [13]. Как и прежде, имеем: профиль экспрессии регулируемого гена, где
профиль j-того ген-регулятора
.
Для удобства будем далее обозначать .
Регуляция гена-мишени описывается следующим уравнением:
где:
- регуляторная функция.
- дисперсия случайной ошибки.
- константа, включающая в себя уровень деградации и фоновую экспрессию.
вклад i-того регулятора.
- винеровский процесс. Т.е:
1.
2. независимы в совокупности.
3.
Такой процесс описывает броуновское движение, или в данном случае - случайную ошибку эксперимента.
В качестве регуляторной функции предлагается выбрать сигма-функцию.
где:
Пусть набор регуляторов и целевой ген фиксированы, и их профили экспрессий известны. Требуется по этой информации найти вектор и . Для достаточно малых имеем аппроксимацию:
Где
Обозначив
Имеем в матричной записи:
Здесь нам известны и , причем - стандартный гауссовский вектор.
Поэтому - также гауссовский вектор и для него можно построить функцию максимального правдоподобия:
Дифференцируя ее по и , и приравнивая производные к нулю, находим оценки методом максимального правдоподобия:
Таким образом:
Для оценки качества приближения теоретических данных используется критерий AIC:
Лучшей является та модель, величина которой меньше. Окончательно, метод можно описать следующим образом:
Алгоритм
1. Фиксируем ген-мишень.
2. Добавляем в модель один случайный ген-регулятор.
3. Составляем матрицу , вектор и находим оценки , далее находим и .
4. Повторяем шаг 3 для всех потенциальных регуляторов, выбираем оптимальный, т.е. регулятор для которого полученное значение наименьшее.
5. Фиксируем выбранный оптимальный регулятор.
6. Повторяем шаги 3-4, добавляя в модель с фиксированным регулятором дополнительный регулятор и находим регулятор который в паре с фиксированным представляет оптимальную модель.
7. Продолжаем добавлять новые регуляторы, пока не случится одно из двух
a. AIC начнет возрастать.
b. Количество регуляторов достигнет некоторого ограничения.
Алгоритм отличается высокой скоростью работы.
10. Сравнение моделей
Модели тестировались на данных по генной экспрессии дрожжей [14], доступных по адресу http://www.csie.ntu.edu.tw/~b89x035/yeast/. Были выбраны именно эти данные для сравнения с результатами, полученными в статье [12]. Данные представляют собой замеры экспрессии по времени с интервалом в 7 минут, всего 18 замеров, первый в точке 0 минут, последний в точке 119 минут. Пропущенные в таблице значения восстанавливались с помощью сглаживания коридорным сплайном. Всего генов мишеней - 5943, из них потенциальных генов-регуляторов - 217.
В ходе работы строились линейные модели со следующими параметрами:
Варианты сглаживания: коридорный сплайн с ошибками 0.01 и 0.05, ядерное сглаживание с размерами окон для значений самой функции и ее первой производной и , сплайн с постоянным весом.
Целевая функция: коэффициент детерминации регрессии и среднеквадратичное отклонение интеграла правой части от исходных данных.
Метод интегрирования: алгоритм Дорманда-Принца.
Кроме того, строилась стохастическая модель для 1 регулятора.
Следует отметить, что, в отобранных потенциальных генах-регуляторах достаточно много генов регуляторов с сильно коррелирующими профилями экспрессии. На рисунках 11,12 приведены наиболее сильно коррелированные профили потенциальных генов-регуляторов. Это сильно осложнило анализ, так как уже при небольших изменениях параметров, модель выбирала другой регулятор в качестве лучшего. В таблице 5 приведено количество одинаковых отобранных регуляторов при различных вариантах реализации линейной модели (из общего числа - 5943).
Таблица 5
Количество совпавших регуляторов при разных методах сглаживания
Ядро (7,15) |
Ядро (8,15) |
Сплайн 0.01 |
Сплайн 0.05 |
Сплайн с постоянным весом |
||
Ядро (7,15) |
- |
4861 |
143 |
128 |
268 |
|
Ядро (8,15) |
- |
- |
158 |
146 |
288 |
|
Сплайн 0.01 |
- |
- |
- |
2271 |
2642 |
|
Сплайн 0.05 |
- |
- |
- |
- |
1821 |
Из таблицы 6 видно, что лучшие результаты по приближению производной (погрешность и качество регрессии) демонстрирует ядерное сглаживание с параметрами 8,15. Однако, завышенные скоры здесь могут свидетельствовать о сильном сглаживании производной. Лучшее приближение интеграла получается при сглаживании сплайном с постоянным весом. “Коридорный” сплайн занимает промежуточное положение. Также из таблицы 6 видно, что стохастическая модель в среднем приближает профиль экспрессии даже хуже чем линейная модель с ядерным сглаживанием и параметрами (7,15). В последней графе таблицы приведено среднее время в секундах, за которое строится приближение для одного гена с помощью одного регулятора (т.е. множество потенциальных регуляторов состояло из 1 элемента). Видно, что здесь бесспорным лидером является стохастическая модель, работающая в среднем в 10 раз быстрее линейной, это в первую очередь связано с необходимостью численно интегрировать правую часть в линейной модели.
Таблица 6
Сравнение линейных моделей с разными методами сглаживания
Вид модели |
SSE приближения производной |
SSE приближения профиля |
Средний скор |
Среднее время работы (с.) |
|
Ядро (7,15) |
0,00102 |
1,2074 |
6,1596 |
0,0137 |
|
Ядро (8,15) |
0,000994 |
1,1859 |
6,3475 |
0,01355 |
|
Сплайн 0.01 |
0,005909 |
1,1417 |
3,2208 |
0,01218 |
|
Сплайн 0.05 |
0,007406 |
1,3962 |
3.0 |
||
Сплайн с постоянным весом |
0,002 |
0,5 |
4.3 |
0,0116 |
|
Стохастическая |
- |
1,22097 |
- |
0.001 |
Рисунок 13. Лучший результат для трех моделей
SSE (Sum of Squared Error) - суммарное квадратичное отклонение
Рисунок 14. Худший результат для трех моделей
SSE (Sum of Squared Error) - суммарное квадратичное отклонение
Далее будем изучать работу ядра с параметрами 8,15, “коридорного” сплайна с погрешность 0.01 и сплайна с постоянным весом. Ясно, что имеет смысл сравнивать модели только на тех генах-мишенях, выбор регуляторов для которых совпал у различных моделей.
Стохастическая модель несет в себе больше биологического смысла за счет моделирования процесса транскрипции с помощью сигма-функции, учитывающей процесс насыщения (т.е. с начиная с какого-то момента увеличение уровня экспрессии регулятора больше не влияет на уровень экспрессии гена-мишени) и добавленной случайной погрешности, которая в эксперименте неизбежна. Кроме того, стохастическая модель требует значительно меньше времени на построение. Однако серьезным недостатком является значительная потеря точности при дискретизации модели, как видно из таблиц 6 и 7, точность стохастической модели хуже, чем у линейной при сглаживании ядром. В таблице 7 приведены результаты для 6 лучших приближений с помощью линейной модели (среди всех случаев, когда 3 варианта реализации выбирали один и тот же регулятор) В приложении 2 на рисунках П2.1-П2.6 приведены соответствующие графики. Видно, что в некоторых случаях стохастическая модель выбирает тот же регулятор, что и линейная, однако чаще они различны и слабо коррелированны.
Таблица 7
Суммарные квадратичные ошибки и AIC для линейных и стохастических моделей регуляции генов
Ген-мишень |
Ядро (8,15) |
“Коридорный” сплайн |
Сплайн с постоянным весом |
Стохастическая модель |
AIC |
|
YDR225W |
2,257 |
1,782 |
1,3844 |
2,312 |
-18,3794 |
|
YML034W |
1,13188 |
0,29515 |
0,35275 |
3,3949 |
-34,5137 |
|
YGL192W |
5,7415 |
0,5534 |
0,25269 |
0,6442 |
-41,301 |
|
YPL141C |
0,7017 |
0,597962 |
0,46421 |
4,16162 |
-22,2028 |
|
YMR232W |
14,2411 |
3,89097 |
2,2747309 |
2,52127 |
-10,5695 |
|
YDR150W |
1,8640 |
0,36604 |
0,375060 |
0,46466 |
-44,0042 |
Также видно, что стохастическая модель хоть и приближает хуже, но чаще всего дает вполне приемлемый результат. Кроме того, ясно, что с биологической точки зрения, модель с одним регулятором и не должны давать стопроцентной точности, так как в реальности каждый ген может потенциально регулироваться несколькими регуляторами, которые могут, как мешать, так и помогать друг другу. С другой стороны, очевидно, что путем добавления регуляторов можно приблизить любой профиль экспрессии с какой угодно точностью. Стохастический алгоритм позволяет довольно быстро строить модели для большого числа регуляторов, так например, на рисунке 14 на примере гена, показавшего худшие результаты при моделировании экспрессии с помощью одного регулятора, показано как растет точность при увеличении количества регуляторов. При этом на каждом следующем шаге добавлялся два новых регулятора, а все старые сохраняются в модели. Таким образом, необходимо соблюдать некий баланс, ограничивая число регуляторов сверху исходя из биологических соображений.
Рисунок 15. Работа стохастической модели при разном количестве регуляторов. SSE (Sum of Squared Error) - суммарное квадратичное отклонение
Рассмотренные выше модели достаточно просты и могут служить только некоторым первым шагом в моделировании регуляции генной экспрессии. Разумным подходом на сегодняшний момент представляется агрегация разнообразных моделей в некоторый комплекс, позволяющий строить различные модели и в каждом конкретном случае выбирать лучшую. При этом необходимо руководствоваться биологическими соображениями, т.к. простая подгонка профилей экспрессии зачастую не несет никакого биологического смысла.
11. Программная реализация
В ходе работы на языке программирования Java был написан плагин к бесплатно распространяющейся системе формального описания и симуляции сложных биологических систем BioUML (http://www.biouml.org/). Плагин представляет собой встроенную в BioUML программу по анализу данных микрочиповых экспериментов. Для начала работы необходимо импортировать микрочиповую таблицу в BioUML (папка microarray) , далее запустить плагин, выбрать вид анализа, задать все необходимые (для каждого метода анализа свои) параметры. Результат в виде таблицы вычисленных параметров (скор, коэффициенты модели ит.п.) также доступен к просмотру в BioUML (папка microarray results). Плагин разработан с возможностью легко добавлять новые методы анализа, список которых со временем пополняется. Ниже перечислены все доступные на данный момент методы анализа:
- Анализ с помощью статистики Стьюдента.
- Анализ с помощью статистики Вилкоксона
- Анализ с помощью теста Лемана-Розенблатта.
- Анализ с помощью теста Колмогорова-Смирнова.
- Гипергеометрический тест.
- Мета анализ с помощью гипергеометрического теста.
- Анализ с помощью множественной регрессии.
- Построение линейной модели регуляции.
- Построение стохастической модели регуляции.
Программа имеет унифицированный для всех методов анализа пользовательский интерфейс, представленный на рисунке в приложении 1. Слева вверху находится выпадающий список для переключения между различными методами. Ниже находится окно с набором параметров (своим для каждого метода). Справа - описание текущего метода анализа. Под окном параметров - полоса прогресса, отражающая степень законченности анализа. Под ней динамически выводится информация о начале нового анализа, о возникших в процессе ошибках, либо успешном завершении анализа. Справа под описанием выводится java-script код для данного метода с текущими параметрами. Все методы также допускают запуск напрямую через консоль BioUML с помощью java-script кода.
Кроме того, плагин позволяет проводить корреляционный анализ данных, а так же пересекать таблицы данных. Доступны левое, правое, включающее и исключающее пересечения.
ЗАКЛЮЧЕНИЕ
Реконструкция генных сетей на основе микрочиповых данных - глобальная и сложная задача, на данный момент не существует однозначных методов ее решения. Возможным подходом является комбинирование различных моделей, однако решать какая модель адекватнее можно только исходя из биологических или эксперементальных соображений. В данной работе рассматриваются методы, включающие статистический анализ микрочиповых таблиц и модели регуляции с помощью дифференциальных уравнений. Статистический метод разработан специально для анализа данных микрочиповых экспериментов и уже зарекомендовал себя, как достаточно надежный. В качестве моделей регуляции рассмотрена самая простая линейная модель с задержкой и взятая из литературы стохастическая. Модели регуляции рассмотрены исключительно с математической точки зрения, конечно для полноценного анализа необходимо также привлечение биологии.
Основные результаты
1. Рассмотрены стандартные статистические методы, применительно к данной задаче. Предложен гипергеометрический алгоритм, разработанный специально для анализа микрочиповых экспериментов.
2. Рассмотрены модели регуляции генной экспрессии, предложена простая линейная модель, исследованы варианты реализации модели - различные методы сглаживания дискретных профилей.
3. Проведен анализ конкретных данных с помощью предложенных методов.
4. Все описанные методы реализованы в программу для анализа данных микрочиповых экспериментов, которая встроена в систему BioUML.
ЛИТЕРАТУРА
1. Айвазян С.А. Прикладная статистика. Основы моделирования и первичная обработка данных. М.: «Финансы и статистика» 1983г.
2. Айвазян С.А. Прикладная статистика. Исследование зависимостей. М.: «Финансы и статистика» 1985г.
3. Гайдышев И. Анализ и обработка данных. Специальный справочник. СПБ.: «Питер» 2001г.
4. Комов В.П., Шведова В.Н. Биохимия: учебное пособие для вузов. М.: «Дрофа» 2004г.
5. Адомиан Д. Стохастические системы. Пер. М.: «Мир» 1987г.
6. Ватанабэ С. Икэда Н. Стохастические дифференциальные уравнения и диффузионные процессы. М.: «Наука» 1986г.
7. Завьялов Ю.С., Квасов Б.И., Мирошниченко В. Л. Методы сплайн функций. -- М.: «Наука», 1980.
8. Завьялов Ю.С., Леус В.А., Скороспелов В.А. Сплайны в инженерной геометрии. -- М.: «Машиностроение» 1985.
9. Вершинин В.В., Завьялов Ю.С., Павлов Н.Н. Экстремальные свойства сплайнов и задача сглаживания. -- Новосибирск: «Наука», 1988.
10. Хардле В. Прикладная непараметрическая регрессия. М.: «Мир» 1993г.
11. Афифи А. Эйзен С. Статистический анализ. Подход с использованием ЭВМ. М.: «Мир» 1982г.
12. Chen K. et al. A stochastic differential equation model for quantifying transcriptional regulatory network in Saccharomyces cerevisiae. Bioinformatics 2005, 21: 2883-1890.
13. Climescu-Haulica A., Quirk M. A stochastic differential equation model for transcriptional regulatory networks. BMC Bioinformatics 2007.
14. Vohradsky J., Vu T.T. Nonlinear differential equation model for quantification of transcriptional regulation applied to microarray data of Saccharomyces cerevisiae. Nucleic Acids Research 2007, 35: 279-287.
15. Spellman P. et al. Comprehensive identification of cell cycle-regulated genes of the yeast Saccharomyces cerevisiae by micro-array hybridization. Mol Biol Cell 1998, 9:3273-3297.
16. Stцter M. et al. Inhibition of casein kinase I delta alters mitotic spindle formation and induces apoptosis in trophoblast cells. Oncogene 2005, 24: 7964-7975.
17. Bogdanovic S., Langlands B. Apoptosis 2009: Opportunities in Cancer and Other Diseases. Biophoenix Limited 2009.
ПРИЛОЖЕНИЕ 1
ПРИЛОЖЕНИЕ 2
Ниже приведены графики для построенных линейной и стохастической моделей. Отобраны 6 лучших приближений профиля экспрессии среди всех построенных с помощью линейной модели, для этих случаев построены приближения стохастическим алгоритмом.
Везде ниже на графиках, если не указано иное:
- экспериментально полученные значения экспрессии гена.
- результат построения линейной модели с помощью сглаживания ядром с параметрами (8,15).
- результат построения линейной модели с помощью “коридорного” сплайна с погрешностью 0,01.
- результат построения линейной модели с помощью сплайна с постоянным весом.
- результат построения стохастической модели
Значения среднеквадратичных ошибок для всех построенных моделей приводятся в таблице 7.
Рисунок 1. Вверху - результаты построения линейной и стохастической моделей. Внизу - выбранные разными моделями регуляторы
Рисунок 2. Вверху - результаты построения линейной и стохастической моделей. Внизу - выбранные разными моделями регуляторы
Рисунок 3. Вверху - результаты построения линейной и стохастической моделей. Внизу - выбранные разными моделями регуляторы
Рисунок 4. Вверху - результаты построения линейной и стохастической моделей. Внизу - выбранные разными моделями регуляторы
Рисунок 5. Вверху - результаты построения линейной и стохастической моделей. Внизу - выбранные разными моделями регуляторы.
Рисунок 3. Вверху - результаты построения линейной и стохастической моделей. Внизу - выбранные разными моделями регуляторы
Размещено на Allbest.ru
Подобные документы
Изучение методов моделирования и анализа панельных данных. Построение ABC-XYZ классификации среди данных широкой номенклатуры по товарным запасам торгового предприятия. Виды исходных данных и построение на их основе модели регрессии по панельным данным.
курсовая работа [363,2 K], добавлен 23.02.2015Выявление производственных связей на основе регрессионных моделей. Расчет прогнозных значений показателей, при уровне факторных показателей, на 30% превышающем средние величины исходных данных. Использование коэффициента корреляции рангов Спирмэна.
задача [58,5 K], добавлен 11.07.2010Методы построения имитационных моделей экономических объектов. Проведение анализа по результатам численных экспериментов на имитационной модели оптового магазина. Выявление закономерностей, которые помогут в проведении кадровой политики предприятия.
курсовая работа [389,0 K], добавлен 28.11.2010Процедура проведения имитационных экспериментов с моделью исследуемой системы. Этапы имитационного моделирования. Построение концептуальной модели объекта. Верификация и адаптация имитационной модели. Метод Монте-Карло. Моделирование работы отдела банка.
курсовая работа [549,5 K], добавлен 25.09.2011Экономико-математическая модель для анализа ресурсов в форме отчета устойчивости. Проверка продуктивности технологической матрицы коэффициентов прямых материальных затрат. Оценка точности моделей на основе средней относительной ошибки аппроксимации.
задача [142,9 K], добавлен 03.05.2009Основные понятия, структура и свойства сетей Петри. Рассмотрение принципов анализа двудольных ориентированных графов. Проведение проверки корректности абстрактного сценария. Преимущества использования сетей Петри в моделировании и анализе бизнес систем.
презентация [98,6 K], добавлен 14.09.2011Методика установления необходимого объема статистической выборки (количества наблюдений). Проверка на нормальность распределения выборочной совокупности. План проведения экспериментов. Регрессионная модель, коэффициенты детерминации и корреляции.
контрольная работа [79,5 K], добавлен 13.05.2011Разработка и принятие правильного решения как задачи работы управленческого персонала организации. Деревья решений - один из методов автоматического анализа данных, преимущества их использования и область применения. Построение деревьев классификации.
контрольная работа [91,6 K], добавлен 08.09.2011Графический и содержательный анализ данных об объеме рынка бытовой техники на основе методов прогнозирования: сравнение прогнозных и реальных значений, оценка адекватности и точности модели. Построение прогноза на год и расчет прогнозируемого дохода.
курсовая работа [245,2 K], добавлен 29.04.2011Статистический анализ по выборке. Проведение регрессионного анализа исходных данных и выбор аналитической формы записи производственной функции. Выполнение экономического анализа в выбранной регрессионной модели на основе коэффициентов эластичности.
курсовая работа [2,2 M], добавлен 22.07.2015