Разработка онтологии экономических рисков на основе мониторинга информации, получаемой из новостных лент

Построение онтологии предметной области для анализа глобальных процессов на основе информации, получаемой из новостных лент. Средства разработки онтологий, используемых для поиска событий, фактов, извлечённых из СМИ; моделирование экономических рисков.

Рубрика Программирование, компьютеры и кибернетика
Вид курсовая работа
Язык русский
Дата добавления 27.08.2017
Размер файла 3,4 M

Отправить свою хорошую работу в базу знаний просто. Используйте форму, расположенную ниже

Студенты, аспиранты, молодые ученые, использующие базу знаний в своей учебе и работе, будут вам очень благодарны.

· Третий атрибут Люди (People) предполагает содержание в себе информации о каких-либо известных личностей из мира экономических рисков. Сюда входят Министры некоторых стран: Силуанов (Siluanov), Мнучин (Mnuchin), Сапен (Sapin), Осборн (Osborne), Падоан (Padoan), Мейрелес (Meirelles), Шойбле (Schauble), Агбал (Agbal), Морно (Morneau).

Рисунок 3.2 Часть онтологии экономических рисков. Развернут компонент Markers (Атрибуты)

Данные атрибуты с нашей точки зрения являются основными для нашей предметной области. Построение онтологической модели позволяет изменять, дополнять ее, что позволяет расширять модель, изменять ее, подстраивать под изменяющиеся предпочтения, обстоятельства и прочее.

Длинные наименования часто имеют аббревиатуру, которую в некоторых источниках расшифровывают, в некоторых употребляют сокращения. Для избегания повторений лишней информации и для верной обработки данных для некоторых атрибутов необходимо было прописывать все возможные их использования в текстах. Таким образом, для США прописаны еще варианты Соединенные Штаты (UnitedStates), Америка (America), Соединенные Штаты Америки (UnitedStatesOfAmerica). Для Африки есть уточнение Южная Африка (SouthAfrica), для России Российская Федерация (RussianFedration), для Великобритании Соединенное Королевство (UnitedKingdom), Англия (England), для Кореи Корейская Республика (RepublicOfKorea), Южная Корея (SouthKorea). Для ЕС Европейский Союз (EuropeanUnion), для Большой двадцатки G-20, GroupOfTwenty, для ООН (UnitedNations).

Помимо иерархических связей в онтологии построены связи между людьми и странами, есть связи, показывающие какие страны входят в определенный союз или группа. На данном этапе работы в список стран вошли те, которые занимают высокие позиции в рейтингах по вычисленному ВВП, то есть считается, что такой показатель говорит о влиянии экономики страны на экономику мира.

Вся иерархия объектов онтологии представлена в приложении Б, а полный граф онтологии можно увидеть в приложении В. Получившаяся онтология является гибким инструментом в использовании и в дальнейшем планируется ее дополнение, расширение, обязательно внедрение в проект по системе мониторинга глобальных процессов. На основе этой модели можно создавать модели других предметных областей или делать более общей получившуюся.

3.2 Апробация полученной онтологии

Основной задачей онтологии для системы мониторинга событий является наполнение базы знаний системы знаниями по выбранной пользователем предметной области. А именно онтология должна решать проблему именования, проблему наполнения базы ненужными знаниями, проблему ограниченного поиска знаний. Очень распространена ситуация, когда в текстах происходит упоминание одних и тех же объектов, но разными словами. Например, в одной новости может быть в качестве страны, где происходили те или иные события, упоминаться ее сокращенное название «США», «Америка» или «Соединенные штаты», а в другой могут написать полное наименование «Соединенные штаты Америки» и так далее.

При составлении такого большого запроса для поиска, который смог бы удовлетворить условию решения проблемы именования, пользователь может учесть не все. Благодаря онтологии, которая содержит в себе разные названия одного объекта, пользовательский запрос, например, «падение цен в Америке», можно дополнить всеми возможными наименованиями, подходящими под него, а также расширить его, подобрав синонимы для словосочетания «падение цен», например, «снижение цен», «спад цен» и так далее.

Для того, чтобы избавиться от лишней информации, которую пользователь может получить при поиске, также можно использовать онтологическую модель предметной области. Ее пользователь наполняет исключительно для той предметной области, которую он выбрал, соответственно онтология должна содержать в себе объекты и их описание конкретно по заданной тематике, а также пользователь может конкретизировать ее на сколько возможно.

Благодаря построению взаимосвязей между объектами и их свойствами появляется возможность расширения пользовательского запроса. Это значит, что его можно уточнить с помощью объектов из онтологии, дополнив изначальный запрос знаниями про конкретные места, личности, наименования, выставив определенные временные рамки и так далее. Например, запрос «разлив нефти» можно дополнить территориальным параметром «в Мексиканском заливе». На запрос «разлив нефти в Мексиканском заливе» будет выведено меньшее количество новостей и большинство из них будет связанно именно с событием, когда в Мексиканском заливе была разлита нефть, по сравнению с первоначальным запросом, который мог вывести любую информацию по событиям связанными с разливом нефти.

При содержании в онтологии синонимов определенных объектов можно расширить поисковую область и добавить новые знания в базу знаний. Например, при задании запроса «снижение зарплаты» поисковая система выведен нам одно количество новостей, а при задании запроса «падение зарплаты» уже другое. Если объединить все синонимичные запросы, то количество найденных новостей возрастет, появится больше информации для анализа и есть возможность найти больше различных событий, связанных с этим запросом. Чем больше информации о различных событиях, тем более полную картину о цепочке различных событий можно увидеть. Какие события предшествуют заданному событию, а какие являются последствиями.

Для апробации нашей онтологии необходимо было проанализировать, каким образом собранные знания могут помочь при поиске новых фактов, а также при их извлечении. В первую очередь для примера был выбран запрос «падение доходов». Для него были придуманы синонимичные запросы «снижение доходов», «спад доходов», «уменьшение доходов», «падение прибыли», «снижение прибыли», «спад прибыли», «уменьшение прибыли». В приложении 4 изображено количество выведенных в поисковой системе результатов по заданным запросам. Можно заметить, что количество выведенных результатов везде отличается, то есть вполне возможно, что некоторые публикации встречаются повторно при задании разных запросов. Однако мы увидели такую картину, где возможно получение большего количества информации, благодаря использованию синонимов из онтологии.

При уточнении запроса поисковая система должна выдавать нам публикации в большей степени по теме нашего запроса, что позволяет избавиться от ненужной информации, которая содержит в себе данные не подходящим для искомого события. Уточним запрос «падение прибыли» до «падение прибыли роснефть», применение которого видно на рис. 3.3. Роснефть является одной из крупнейших компаний по производству нефти. Данную компанию часто подозревают в скрытии информации о прибыли компании. В течение 2016-2017 против компании идет разбирательство о доходах топ-менеджеров компании. В качестве события, которое мы возьмем за исходное для проведения анализа, является падение прибыли компании Роснефть. На основе уточненного запроса найдем информацию и извлечем ее из новостных публикаций.

Рисунок 3.3 Количество найденных страниц по запросу «падение прибыли роснефть»

На примере данного запроса сформируем таблицы (см. приложение 5) с информацией о фактах, извлеченных из текстов публикаций, для того, чтобы показать, в каком виде должны поступать результаты поиска в систему для обработки данных. В данную таблицу входят данные о источнике информации, точнее электронный адрес, наименование источника, сами факты, извлеченные из текстов и дата публикации. По столбику «факт» можно увидеть, что очень часто встречается не только название фирмы, но и ее представители. В онтологии для этого мы прописали неполную иерархию сотрудников для компании Роснефть. Таким образом, онтология помогает нам кластеризовать записи, в которых речь может идти про один и тот же объект. В данном случае, если нам важно найти информацию о событиях, связанных с компанией Роснефть, при упоминании о каком-либо сотруднике этой компании по онтологии можно будет вычислить о какой копании идет речь.

Заключение

Обработка информации в Интернете в наши дни набирает популярность, так как по исследованиям многих аналитиков именно в ресурсах Интернета содержится много полезной информации, которую могут использовать как ученые, так и менеджеры крупных предприятий.

В новостных лентах Интернета можно найти много информации о различных событиях, но для извлечения из них полезной информации необходимо использовать специальные средства извлечения информации. Существуют различные аналитические системы, которые содержат в себе методы анализа неструктурированной информации из Интернета, но они не являются общедоступными. Для построения собственной аналитической системы необходимо определить подход, благодаря которому такая система сможет осуществлять поставленные задачи. Этот подход уже придуман и используется в работе Шаляевой И.М. [7, 8]. Одной из важных составляющих данного подхода является формирование базы знаний, что послужило основой для данной работы.

В результате был проведен анализ существующих методов для извлечения информации из электронных документов и их структурирования. В ходе анализа было выявлена, что лучше всего для наполнения базы знаний подходит онтология, которая в качестве модели предметной области применялась как для поиска информации в Интернете, так и для извлечения новых знаний. Из этого можно сделать вывод, что онтология может послужить основой для решения сразу нескольких задач информационного поиска, а также обеспечить максимально гибкие решения возникающих при поиске информации проблем.

Решена основная задача - на основе проведённой классификации экономических рисков разработаны модели предметной области. Построенные онтологии включают понятия о разновидности экономических рисков, а также об атрибутах публикаций. Построенная модель предметной области позволяет решать проблему именования в тексте, кластеризации данных. Работа прошла апробацию, результаты которой были представлены и опубликованы в сборнике на конференции «Математика и междисциплинарные исследования - 2017» (ПГНИУ), а также на конференции «Цифровая гуманитаристика: ресурсы, методы, исследования» (ПГНИУ) [26, 27].

Библиографический список

1. Prognoz Platform 8. Возможности платформы // Prognoz [Электронный ресурс]

2. Ермаков А. Е. Поиск фактов в тексте [Электронный ресурс] А. Е. Ермаков // Открытые системы

3. Басипов А.А. Семантический поиск: проблемы и технологии / А.А Басипов, О.В. Демич // Вестник АГТУ. Серия: Управление, вычислительная техника и информатика. - 2012. - №1. - С.104-111.

4. Гришковский А. Интегрированная обработка неструктурированных данных [Электронный ресурс] А. Гришковский

5. Shilakes C.C. Enterprise Information Portals / C. C. Shilakes, J. Tylman // Merrill Lynch. - 16 November, 1998.

6. Лемесев К.А. Модели и методы извлечения структурированной информации из сети Интернет / К.А. Лемесев // Вестник МГУЛ - Лесной вестник. - 2012. - №6 (89). - С.113-115.

7. Шаляева И.М. Мониторинг экологических катастроф и их последствий на основе Internet-новостей / И.М. Шаляева // VII Международная научно-техническая конференция Технологии разработки информационных систем ТРИС-2016. - Таганрог. - 2016. - С.116-123.

8. Шаляева И.М. О проекте разработки системы мониторинга глобальных процессов на основе Интернет-новостей / И.М. Шаляева, В.В. Ланин, Л.Н. Лядова // VII Международная научно-техническая конференция Технологии разработки информационных систем ТРИС-2016. - Таганрог. -2016. - С.166-170.

9. Van der Aalst W.M.P. Process Mining Manifesto / W.M.P. van der Aalst, A. Adriansyah, A.K. de Medeiros // BPM 2011 Workshops, Part I. Т. 99. Springer-Verlag. - 2012. - P. 169-194.

10. Шарапов Р.В. Расширенная булева модель поиска [Электронный ресурс] Р.В. Шарапов, Е.В. Шарапова, Т.Е. Меркулова

11. Редактор Protйgй // Protйgй [Электронный ресурс]

12. Ланин В.В. Система интеллектуального поиска, классификации и реферирования документов для Интернет-портала / В.В. Ланин // The XV th International Conference “Knowledge-Dialogue-Solution” (KDS'2009). - Varna (Bulgaria). - June-July. - 2009. - Pp.151-157.

13. Агеев М.С. Автоматическая рубрикация текстов: методы и проблемы / М.С. Агеев, Б.В. Добров, Н.В. Лукашевич // Учен. зап. Казан. ун-та. Сер. Физ.-матем. науки. - 2008. - №4. - С.25-40.

14. Доброхотов А.Л. Онтология. Гуманитарная энциклопедия [Электронный ресурс] А.Л. Доброхотов, А.П. Огурцов, М.А. Можейко, В.Е Кемеров

15. Добров Б. Онтологии и тезаурусы: модели, инструменты, приложения [Электронный ресурс] Б. Добров, В. Иванов, Н. Лукашевич, В. Соловьев // НОУ Интуит

16. Gruber T.R. A translation approach to portable ontology specifications / T. R. Gruber // Knowledge Acquisition. - June 1993. -5 (2). - P.199-220.

17. Горшков С. Введение в онтологическое моделирование / С. Горшков // Тринидата. - 2014-2016. - С.10-15.

18. Кириллов А.В. О новом подходе к семантическому преобразованию естественно-языковых запросов поисковых систем / А.В. Кириллов, В.А. Фомичев // Бизнес-информатика. - 2011. - №1 (15). - С.61-68.

19. Смирнов С.В. Онтологический анализ предметных областей моделирования / С.В. Смирнов // Известия Самарского научного центра РАН. 2001. №1 С.62-70.

20. Вдовицын В. Онтологически-ориентированный подход для построения систем полнотекстового информационного поиска электронных документов / В. Вдовицын, Н. Крижановская, В. Старкова // Информационные ресурсы России. - 2014. - №5. - С.33-40.

21. Виды и классификация рисков // Risk24.ru [Электронный ресурс]

22. Колмыкова Т.С. Инвестиционный анализ: Учеб. пособие / Т.С. Колмыкова // М.: ИНФРА-М, 2009. - 204 с.

23. Султанов И.А. Классификация основных видов рисков деловой деятельности [Электронный ресурс] И.А. Султанов

24. Общие принципы классификации и виды рисков // Страховой консультант [Электронный ресурс]

25. Коммерческий риск // Grandars

26. Ланин В.В. Мониторинг глобальных процессов на основе данных из Интернет-новостей / В.В. Ланин, И.М. Шаляева, А.Ю. Скурихина // Международная научная конференция Цифровая гуманитаристика: ресурсы, методы, исследования. - Пермь. - 2017. - С. 67-70.

Шаляева И.М. Система анализа событий экологической и экономико-политической сферы на основе Интернет-новостей / И.М. Шаляева, А.Ю. Скурихина // Всероссийская научно-практическая конференция молодых ученых с международным участием Математика и междисциплинарные исследования - 2017. - Пермь. - 2017. - С. 230-235.

Приложение А

Граф онтологии экономических рисков

Рисунок А1. Граф онтологии экономических рисков

Приложение Б

Фрагменты иерархии классов расширенной онтологии экономических рисков

Рисунок Б1. Фрагмент иерархии классов онтологии экономических рисков, часть 1

Рисунок Б2. Фрагмент иерархии классов онтологии экономических рисков часть 2

Рисунок Б3. Фрагмент иерархии классов онтологии экономических рисков часть 3

Приложение В

Граф расширенной онтологии экономических рисков

Рисунок В1. Граф расширенной онтологии экономических рисков

Приложение Г

Иллюстрации изменения количества источников поиска с синонимичными запросами

Рисунок Г1. Количество найденных страниц по запросу «падение доходов»

Рисунок Г2. Количество найденных страниц по запросу «снижение доходов»

Рисунок Г3. Количество найденных страниц по запросу «спад доходов»

Рисунок Г4. Количество найденных страниц по запросу «уменьшение доходов»

Рисунок Г5. Количество найденных страниц по запросу «падение прибыли»

Рисунок Г6. Количество найденных страниц по запросу «снижение прибыли»

Рисунок Г7. Количество найденных страниц по запросу «спад прибыли»

Рисунок Г8. Количество найденных страниц по запросу «уменьшение прибыли»

Приложение Д

Таблица извлеченных данных по запросу «падение прибыли роснефть»

Рисунок Д5. Таблица извлеченных данных по запросу «падение прибыли Роснефть»

Размещено на Allbest.ru


Подобные документы

  • Формализации в онтологии областей знаний с помощью концептуальной схемы. Определение атрибутов класса и свойств экземпляров. Создание экземпляров класса и DL-Query запросов. Методика использования для разработки онтологии среды разработки Protege.

    курсовая работа [2,0 M], добавлен 18.06.2014

  • Создание множества религиозных понятий и их определение. Преимущества использование платформы Protеgе. Разработка онтологии по предметной области "Буддизм" посредством компьютерной программы Protеgе 4.2.0. Представление онтологии в графическом виде.

    курсовая работа [768,0 K], добавлен 18.08.2013

  • Методы представления знаний заданной предметной области. Создание онтологии бортовых информационно управляющих систем автомобиля. Создание среды разработки и приложения для поиска в интернете с использованием онтологии. Проверка эффективности приложения.

    презентация [1,6 M], добавлен 25.12.2014

  • Информационное обеспечение научных исследований в университете. Разработка онтологии в области управления. Создание глоссария по менеджменту, списка персоналий. Семантическая разметка массива документов. Методика работы с базой научных публикаций.

    дипломная работа [3,5 M], добавлен 13.01.2015

  • Разработка web-сервиса как услуги, предоставляемой пользователю. Продажа товара (автомобилей) в Интернете, проблема выбора. Онтологии как часть концепции Semantic Web. Применение онтологий, их основные типы и свойства. Особенности реализации онтологии.

    курсовая работа [57,4 K], добавлен 17.04.2012

  • Создание и развитие университетской информационной системы как тематической электронной библиотеки и базы для исследований и учебных курсов. Общее описание системы. Пользовательский графический интерфейс. Программное обеспечение, руководство пользователя.

    дипломная работа [1,0 M], добавлен 24.01.2016

  • Понятие и компоненты онтологии. Назначение и использование рубрикаторов в интернет-системах по товарам. Автоматическая рубрикация по товарам. Фрагмент описания рубрики "Автозапчасти". Проблемы пословного поиска в системе Ontoseek и средства их решения.

    презентация [1,2 M], добавлен 01.09.2013

  • Разработка самообучающейся интеллектуальной информационной системы для анализа кредитоспособности заемщика и оценки кредитных рисков на основе подхода иммунокомпьютинга. Применение процедур кластеризации, классификации и формирования оценок рисков.

    курсовая работа [822,3 K], добавлен 09.06.2012

  • Система классов и свойств языка RDFS. Реификация или материализация утверждений. Возможности RDF, RDF Schema в представлении онтологий. Способы представления RDF-описаний. Структура и базовые элементы OWL-онтологии. Языки запросов к RDF-хранилищам.

    презентация [312,1 K], добавлен 01.09.2013

  • Бит, неопределенность, количество информации и энтропия. Формула Шеннона. Формула Хартли. Логарифмы. Количество информации, получаемой в процессе сообщения. Взаимодействие источника и приемника информации. Количество, информационная емкость ячеек памяти.

    реферат [579,6 K], добавлен 17.07.2008

Работы в архивах красиво оформлены согласно требованиям ВУЗов и содержат рисунки, диаграммы, формулы и т.д.
PPT, PPTX и PDF-файлы представлены только в архивах.
Рекомендуем скачать работу.