Исследование основных подходов к автоматическому отображению онтологий
Анализ существующих программных средств для автоматического отображения онтологий, их практического применения в зависимости от поставленной задачи и сложности входных онтологий. Отображение сложных онтологий с помощью алгоритма повышенной точности.
Рубрика | Программирование, компьютеры и кибернетика |
Вид | дипломная работа |
Язык | русский |
Дата добавления | 14.06.2012 |
Размер файла | 1,5 M |
Отправить свою хорошую работу в базу знаний просто. Используйте форму, расположенную ниже
Студенты, аспиранты, молодые ученые, использующие базу знаний в своей учебе и работе, будут вам очень благодарны.
3.1 Ручное отображение онтологий. Методы ручного отображения онтологий
Ручное отображение онтологий - деятельность по установлению соответствия между несколькими онтологиями [24].
Проблема отображения онтологий заключается в том, что:
1. Сущности (классы, свойства, связи, объекты) имеющие одинаковые имена могут иметь разный смысл;
2. Сущности (классы, свойства, связи, объекты) имеющие одинаковый смысл могут иметь разные имена.
Отображение онтологий разделяется на 2 подзадачи:
1. Локальное отображение сущностей, подразумевающее независимую установку соответствий между двумя сущностями, рассматриваемых онтологий;
2. Глобальное отображение сущностей, в рамках которого, подразумевается пересмотр (пересчет) локальных отображений с учетом отображений всех остальных элементов.
Для обеспечения максимальной точности отображения сущностей при ручном режиме отображения выделяют 4 основных метода:
1) Лингвистический/Лексический/Текстовый анализ сущностей онтологий
На данном этапе определяется сходство между сущностями на основе сравнения имен сущностей (оценка количества совпадающих символов, общие части слов, например, «Цели» и «Целевые установки») или путем анализа синонимичных терминов. Для выявления синонимичных терминов могут использоваться существующие словари общей и профессиональной лексики, тезаурусы. Данный вид анализа можно считать исходным для установления соответствия между сущностями.
2) Структурный анализ сущностей онтологий
2.1) Анализ внутренней структуры сущностей онтологий
В данном случае оценка сходства производится на основе анализа доменов и областей допустимых значений для атрибутов и связей. Методы анализа внутренней структуры иногда называются методами на основе ограничений. Сущностей со схожей внутренней структурой, а также свойств с похожими доменом и областью значений может быть достаточно много, поэтому данные методы используются только для формирования кластеров сходных понятий и требуют сочетания с другими методами.
2.2) Анализ внешней структуры сущностей онтологий
А) Анализ сходства по иерархическим связям сущностей онтологий
Оценка схожести двух сущностей двух онтологий может быть основана на позициях данных сущностей в иерархии классов. Если две сущности двух онтологий схожи, то их «соседи» также как-то схожи. Такое утверждение может использоваться по-разному и порождает ряд возможных критериев (признаков) для сходства двух сущностей:
- Их прямые супер-сущности (или все супер-сущности) уже являются схожими;
- их сущности-братья (или все их сущности-братья) уже являются схожими;
- их прямые сущности-потомки (или все их сущности-потомки) уже являются схожими;
- все их сущности-листья (сущности, не имеющие потомков, находящиеся в дереве, корнем которой является рассматриваемая сущность) уже являются схожими;
- все (или большинство) сущности на пути от корня к рассматриваемой сущности уже являются схожими.
Б) Анализ сходства по перекрестным связям сущностей онтологий
Определение сходства между сущностями может быть основано также на анализе связей сущностей. Если класс А1 связан с классом В1 связью типа R1 в одной онтологии, а класс A2 связан с В2 связью типа R2 в другой онтологии, и если известно, что В1 и В2 - схожи, R1 и R2 - схожи, можно предположить схожесть А1 и А2. Подобным образом можно говорить и сходстве типов связей - R1 и R2 если известно, что А1 и А2 - схожи, В1 и В2 - схожи. Таким образом оценивается схожесть элементов онтологии в работе.
3) Экстенсиональный (статистический) анализ сущностей онтологий
Для оценки экстенсионального соответствия классов используются существующие экземпляры классов. Для установки соответствия между сущностями используются следующие диагностические правила:
- С1 эквивалентен С2 - невозможно найти объект О1:С1, такой что не О1:С2 и наоборот.
- С1 подкласс С2 - невозможно найти объект О1:С1, такой что О1:С2 и С1 не эквивалентен С2.
Анализ экстенсионала позволяет также идентифицировать классы-роли, когда возникает два разных класса для описания одного экстенсионала.
4) Логический анализ сущностей онтологий
Логический анализ основан на выявлении родовых классов сопоставляемых классов и анализе наложенных на них ограничений.
Ограничением данного метода является потребность в «якорях» - сущностях которые либо заведомо эквивалентны в двух сопоставляемых онтологиях, либо являются разделяемыми сущностями в некоторой сторонней онтологии.
После получения локальных соответствий между сущностями определяется глобальное соответствие между сущностями.
Практические рекомендации по расстановке приоритетов между результатами различных способов локального анализа:
При наличие баз знаний, включающих в себя экземпляры отображаемых онтологий, приоритетное значение имеют результаты экстенсионального анализа. При наличие «якорей» в отображаемых онтологиях приоритетное значение имеют результаты логического анализа.
Однако результаты любого анализа следует согласовывать с результатами, полученными с использованием других видов анализа. Особенно важно такое согласование при установке соответствия между классами ролями, исполнители которых (экстенсионал) могут выполнять одновременно несколько ролей.
Метод ориентирован на «ручную» интеграцию онтологий путем поиска компромисса и согласования мнений, традиционные метрики сходства сущностей отображаемых онтологий не рассчитываются.
3.2 Автоматическое отображение онтологий
программный онтология алгоритм
Развитие онтологий начинает приобретать более массовый характер, и в настоящее время в этой области есть ряд масштабных проектов. Разработано большое количество онтологий в различных предметных областях, но возникает вопрос, как гарантировать их соответствие текущему положению вещей, как быть уверенным, что они точны и полны, а также как обеспечить достаточную детальность представляемых данных. В связи с тем, что мир очень быстро изменяется, идет развитие новых отраслей, существующие онтологии требуют постоянного пополнения и усовершенствования. На данном этапе появляются идеи использования автоматических и полуавтоматических методов для не только обновления онтологий, но даже для их создания.
В большинстве случаев проблемой автоматического извлечения знаний из онтологий становится большое количество «шума», который надо эффективно отсеивать. В связи с этим иногда наряду с автоматическими методами используют последующую ручную обработку результатов отображения для получения данных большей точности.
Общие требования, предъявляемые к системам автоматического отображения онтологий:
- Минимальный контроль - сведение к минимуму или исключение вообще участия человека.
- Универсальность - применимость к неоднородным онтологиям, т.е. написанным на разных языках (RDF, RDF(S), OWL), вне зависимости от их размера, возможность трансляции.
- Точность - отображенная онтология должна содержать как можно меньше ошибок.
Выполнение данных требований, возможно, позволит построить эффективную систему автоматического отображения онтологий, пока же все существующие системы нуждаются в доработках и улучшениях или же успешно работают лишь применительно к замкнутым областям знания [28].
На первом этапе отображения необходимо найти отправную точку, назовем ее связующим звеном двух онтологий, старта алгоритма. Выделяют несколько методов ее обнаружения:
- текстовые совпадения;
- совпадения иерархических отношений;
- совпадение форматов и данных.
Под текстовыми совпадениями подразумевается идентичность имен понятий (здесь также учитываются родственные слова), текстовых определений (сравнение строк, исключение стоп-слов и др.). Иерархическое совпадение предусматривает поиск общих вышестоящих понятий, фильтрацию неоднозначностей, нахождение семантического расстояния. Под фильтрацией неоднозначностей, следует понимать, выбросы зашумленных данных, не совпадение названий понятий в двух онтологиях. Выбор семантического расстояния зависит от поставленной задачи и конечного результата. Совпадение форматов и данных опирается на внутри понятийные отношения и ограничения на заполнение слотов. После отработки алгоритмов используется функция, которая учитывает результаты всех процедур и выдает общий коэффициент совпадения. Нахождение связующего звена включает в себя также процедуру валидации, т.е. сверка заданных требований с полученным результатом, в ходе которой происходит проверка с учетом иерархических связей соотносимых понятий. Эта процедура пытается найти несоответствия понятий, цикличность отображения, проверить наследование свойств [27].
Для выявления идентичности понятий используются специально созданные критерии. Так, комплексный критерий, предложенный Н. Гуарино, проверяет сходство по нескольким параметрам:
- материал: идентичность материала, из которого сделаны экземпляры сравниваемых понятий;
- топологический: идентичность формы экземпляров сравниваемых понятий;
- морфологический: те части, из которых состоят экземпляры сравниваемых понятий;
- функциональный: использование;
- меронимический: экземпляры понятий;
- социальный: социальная роль [27].
Учитываются также возможные стандартные метонимические переносы, которые делают онтологию более гибкой и расширяют возможность нахождения близких по содержанию понятий.
Метонимия (греч. «переименование) механизм речи, состоящий в переносе названия с одного класса объектов или единичного объекта на другой класс или отдельный предмет, ассоциируемый с данным по смежности, сопредельности, принадлежности или иному виду контакта; например: выпить две чашки кофе, где чашка («сосуд») означает меру жидкости. Действие механизма метонимии приводит к появлению нового значения или контекстно - обусловленному изменению значения слова. Основой метонимии могут служить отношения между однородными и неоднородными категориями, например предметами и их признаками (действиями). Регулярные отношения между предметами или действием и предметом определяют контактное положение соответствующих им слов в тексте. В этом случае метонимия часто возникает за счет эллипсиса (сокращения текста); например: Слушать музыку Шопена и Слушать Шопена.
Описанные методы являются полуавтоматическими, то есть сначала автоматически генерируются варианты соответствий, а потом вручную в несколько этапов происходит соединение онтологий. Статистика показала, что эти процедуры обладают достаточно высокой степенью точности и дают хорошие результаты [27]. Так, использование подобных автоматических алгоритмов отображения при построении онтологии SENSUS дало более 90% точности. Онтология разрабатывалась группой исследователей по компьютерной обработке естественного языка, основным направлением которой является машинный перевод и реферирование текста.
При отображении онтологий может возникнуть ряд проблем, которые может быть достаточно сложно решать автоматическими методами. Так эксперты в разных областях могут отсылать к одному и тому же понятию и понимать его различным образом. Проблемы возникают и тогда, когда одно и то же слово используется для обозначения различных понятий в каждом отдельном поле. Решением такой проблемы может быть более тесная коммуникация составителей онтологий, а также использование более широких онтологий, применимых к различным областям знания.
3.3 Методы автоматического отображения онтологий
Выбор предпочтительных методов к отображению онтологий должен производиться в первую очередь не из соображений эффективного обнаружения совпадений в именах или структурных описаниях понятий, хотя это также необходимо. Основной критерий отображения понятий онтологии - близость и непротиворечивость подразумеваемой понятийной семантики.
1. Если предположить, что хорошо специфицированные онтологии точно отражают семантику понятий, то важны формальные методы, доказательно сохраняющие семантику при отображении понятий друг в друга.
2. Необходимо иметь на вооружении методы, позволяющие находить сходства и различия в понятийной семантике, вне зависимости от сходства и различия в описаниях их структуры. Эти методы должны быть также формальными, чтобы с высокой долей уверенности обосновывать связи понятий.
Существуют 4 основных подхода автоматического отображения:
1) Отношение уточнения спецификаций сущностей онтологий.
Формальный критерий корректности отображения спецификаций, в том числе, спецификаций абстрактных типов данных и онтологических понятий, представляемых средствами абстрактных типов данных. Таким критерием является отношение уточнения спецификаций, пришедшее из теории программирования. Установленное между спецификациями, отношение уточнения означает, что уточняющую спецификацию гарантированно можно использовать вместо уточняемой, не замечая подмены. Данное отношение определяется для абстрактных типов данных формально, поэтому утверждение об уточнении спецификаций можно доказывать. В зависимости от сложности модели данных доказательство уточнения может быть автоматическим или интерактивным.
Частным случаем уточнения спецификаций является отношение поглощения, устанавливаемое на экстенсионалах понятий. Оно означает, что все экземпляры класса поглощаемого понятия являются также экземплярами поглощающего. Это отношение играет важнейшую роль в сегодняшних онтологиях, и возможность его автоматического доказательства является основных критерием при разработке современных онтологических моделей, призванных быть понимаемыми и человеком, и машиной. Поэтому учитывая тенденции и разрешимость онтологических моделей, в рассуждениях в большинстве случаев достаточно использовать поглощение. В частности, для отображения онтологий в современных онтологических моделях отношение поглощения понятий резонно использовать в качестве основного критерия. В целом, отношение уточнения может устанавливаться между понятиями как при разработке одной онтологии, так и при согласовании разных онтологий.
Формально обоснованные отношения уточнения понятий гарантируют корректность отображения понятий одной онтологии в другую. В этом случае, предполагая, что изначально спецификации онтологических понятий достаточно отражают их понятийную семантику, можно быть уверенным, что семантика понятий при отображении сохранена.
Данный подход работает со спецификациями онтологии как со схемами. Предположение о достаточности спецификаций для отражения семантики понятий здесь существенно. Поэтому помимо формальных подходов работы с онтологиями, необходимы подходы, выявляющие сходства и конфликты понятий на основании информации о понятиях сверх описания их
структуры и ограничений.
2) Метаонтологии и онтологии верхнего уровня.
Помимо формальных методов работы со спецификациями сущностей онтологий для описания семантики онтологических понятий согласовываемых онтологий, желательно иметь спецификации, рассматривающие понятия каждой из онтологий с некоторой общей точки зрения. Реализацией такого подхода может стать применение метаонтологии, связанной с обеими согласовываемыми онтологиями.
Метаонтология может содержать описание:
? обобщённой метамодели, на основе которой можно построить большинство онтологических моделей; такая метаонтология оказывается особенно полезна при отображении онтологий, разработанных в разных онтологических моделях;
? более абстрактной онтологии, из понятий которой строится большинство разновидностей сущностей, встречающихся в предметной области.
Метаонтология должна стать подложкой под согласовываемые онтологии. Если онтологии изначально не описаны одной и той же метаонтологией, соотносить элементы спецификаций с понятиями метаонтологии можно специально для решения задачи отображения. При необходимости качественного отображения онтологий данный подход может оказаться затратным, но дающим хороший результат. Принцип формирования подложки следующий.
Каждое понятие из согласовываемых онтологий (а также, если возможно, каждое отношение или свойство) должно стать экземпляром некоторого понятия метаонтологии. Если семантически подходящего понятия в метаонтологии нет, то создаётся служебное понятие (оно будет являться подпонятием понятия метаонтологии), являющееся выражением, описывающим в терминах понятий метаонтологии необходимую семантику. И элемент спецификации онтологии становится экземпляром служебного понятия. Таким образом, в классах, определяемых понятиями метаонтологии или служебными понятиями, в качестве экземпляров окажутся элементы спецификаций согласовываемых онтологий, распределённые по классам в зависимости от их семантики с точки зрения метаонтологии.
Такой принцип построения подложки на метаонтологии позволяет сделать независимыми друг от друга спецификации в терминах метаонтологии и собственно спецификации онтологий, так как эти спецификации находятся на разных уровнях иерархии классификации. К слову, по той же причине нет ограничений на одновременное использование нескольких метаонтологий, рассматривающих онтологии с разных ракурсов предметных областей.
Сформированные спецификации в терминах метаонтологии можно использовать:
? для проверки корректности отображения понятий;
? при семантическом поиске релевантных понятий для дальнейшего отображения.
В этих задачах поглощающее (уточняющее) понятие должно находиться с поглощаемым (уточняемым) в одном классе (включая его подклассы), соответствующем понятию метаонтологии или служебного понятия.
Описанный подход берёт своё начало ещё в концептуальном моделировании, где важность метауровней была осознана изначально. В онтологическом моделировании актуальность такого подхода только возрастает.
Другой подход к формированию подложки использует общую онтологию верхнего уровня, содержащую наиболее общие понятия, используемые в любых предметных областях (например, DOLCE). Согласовываемые онтологии встраиваются в иерархию понятия/подпонятия онтологии верхнего уровня (при таком подходе её некорректно называть метаонтологией). Этот путь более сложен, он включает задачу интеграции каждой онтологии в онтологию верхнего уровня и может приводить к изменению изначальных онтологий для совместимости их с онтологией верхнего уровня. Однако и он позволяет избежать некорректных отображений понятий между онтологиями.
3) Фундаментальные метасвойства.
Онтология представляет собой набор свойств и отношений, которые являются утверждениями об объекте. В онтологии уделяется большое внимание различным видам свойств понятий. С элементами онтологии может быть связан набор фундаментальных метасвойств, с точки зрения которых можно оценить любое понятие или отношение:
? существенность - неотъемлемость свойства сущности;
? строгость - принадлежность существенного свойства сущности в любом воображаемом контексте или мире;
? идентификация - является ли утверждение об объекте идентифицирующим его свойством;
? собственная идентификация - несёт ли эту идентификацию само утверждение, либо оно наследует её из других свойств или сущностей;
? неизменность - может ли свойство меняться во времени;
? зависимость - может ли сущность существовать без других;
? постоянство - как долго сущность остаётся таковой;
? объединение - существование экземпляров понятия как целых сущностей в отношении часть/целое, и другие.
Формальное определение подобных метасвойств предполагает некоторые ограничения, которые должны выполняться при их использовании с различными сущностями. Некоторые из этих метасвойств совместимы друг с другом, другие исключают друг друга. Для свойства q, поглощающего свойство p, верны следующие ограничения:
? если q строгое для любых сущностей, то p также строгое для любых сущностей;
? если q несёт критерий идентификации сущностей, то и p также;
? если q несёт критерий объединения, то и p также;
? если q не несёт объединение, то и p также;
? всякая сущность должна быть значением наиболее общего свойства, несущего его идентификацию, и другие.
В частности, при построении таксономии поглощения между понятиями, некоторые метасвойства более специфических понятий должны наследоваться, и обнаружение конфликтов метасвойств понятий в иерархии будет означать некорректность построения таксономии. На подобных правилах основан инструмент проверки и коррекции онтологий OntoClean.
Те же ограничения должны выполняться и для связей, выявленных между понятиями, принадлежащими разным онтологиям. Соответственно их можно использовать для обнаружения семантических конфликтов в результатах отображения онтологий. Если метасвойства связанных понятий из двух онтологий противоречат друг другу, это означает, что отображение было составлено некорректно, и понятия имеют разную семантику.
На основе метасвойств различных видов можно проводить и другие, более сложные рассуждения, полезные в задаче отображения онтологий.
Родовые понятия онтологии могут отражать идентификацию объектов реального мира, образовывать типы. Видовые - создавать категории объектов. Ролевые - относиться к ролям объектов реального мира. Ролевые понятия могут быть подпонятиями родовых. Видовые понятия могут быть подпонятиями ролевых или родовых понятий. Если касаться метасвойств отношений часть/целое, совокупность всех частей составляет целое, это может быть использовано для предположения связи понятий. Если часть является неотъемлемой, целое может быть идентифицировано по части. Если целое является инвариантным, то части можно идентифицировать по целому. Все эти знания могут быть использованы для корректного отображения понятий между онтологиями.
Данный подход некоторым образом связан с предыдущим описанным подходом отображения онтологий, использующим общую онтологию верхнего уровня для согласовываемых онтологий. Ведь фундаментальным понятиям онтологии верхнего уровня соответствуют вполне определённые наборы значений метасвойств. И эти метасвойства также задают требования к понятиям согласовываемых онтологий. Таким образом, при совместном использовании онтологии верхнего уровня и фундаментальных метасвойств понятий появляются дополнительные возможности контроля с помощью метасвойств корректности отнесения понятий онтологий в качестве подпонятий к понятиям онтологии верхнего уровня.
4) Экземпляры экстенсионалов понятий.
Последний подход из представленных методов обнаружения сходств и конфликтов понятийной семантики, связан с экземплярами классов понятий онтологий. Такими экземплярами могут становиться:
? объекты, соответствующие сущностям реального мира;
? примеры моделей реального мира;
? хорошо классифицированные с помощью онтологий данные.
На основе принадлежности экземпляров одним и тем же понятиям разных онтологий можно заниматься поиском релевантных понятий. Обратная задача - проверка экстенсиональной составляющей связанных понятий из согласовываемых онтологий. Существование хотя бы одного примера модели, в которой сущности не принадлежат одновременно классам, соответствующим эквивалентным понятиям согласовываемых онтологий, приводит к конфликту и ставит под сомнение корректность установленной связи между понятиями. Данный экстенсиональный подход к проверке отображения онтологий «по образцу» может быть реализован формальным образом.
Применяя существующие, даже формальные, методики, невозможно автоматически отображать онтологии, созданные разными рабочими группами. Поэтому первым требованием к работе экспертов по согласованию отображенных онтологий является вовлечение в работу и в дискуссию экспертов-представителей каждой из выбранных онтологий.
Необходимость вовлечения экспертов доказывается тем, что при формальности представленных подходов в каждом из них присутствуют предположения, не доказуемые формально:
? о достаточности отражения семантики понятий спецификациями онтологий;
? о корректном описании понятий в терминах метаонтологий;
? о корректной оценке значений метасвойств, связанных с понятиями;
?о корректном отнесении сущностей реального мира или информационных объектов к определённым понятиям.
Эксперт в области своей компетенции может принимать ответственные решения, связанные с перечисленными выше проблемами: пояснять семантику понятий, не выраженную в спецификациях, выражать понятия своей онтологии в терминах метаонтологий, декларировать фундаментальные свойства понятий, предлагать примеры моделей реального мира и решать, как они выражаются в терминах его онтологии. Семантические различия похожих понятий могут выясняться зачастую только в процессе дискуссий, на основе применения к выбранным онтологиям одной и той же метаинформации о понятиях. Каждый из представленных подходов может помочь экспертам эффективно обнаруживать скрытые конфликты при отображении онтологий. Реализация этих подходов может быть не только компьютеризированной. Они могут быть полезны экспертам в качестве:
? регламента обсуждений и дискуссий в ходе совместной работы по отображению онтологий;
? автоматизированной системы поддержки совместной работы экспертов по отображению онтологий в интерактивном режиме.
Таким образом, система поддержки отображения онтологий должна обеспечивать не столько работу автоматизированных методов, результаты которых должен контролировать эксперт, сколько совместное применение различных методов верификации отображений в ходе работы нескольких экспертов - представителей конкретных онтологий.
При согласовании отображенных пересекающихся областей сталкиваются продуманные решения, и находить консенсус между ними бывает непросто. Интенсивно занимаясь оценкой различных алгоритмов выравнивания онтологий, исследователи, тем не менее, понимают ограничения этих подходов и отмечают необходимость и перспективность разработок, позволяющих оптимально поддерживать интеллектуальную работу экспертов при согласовании онтологий [4].
3.4 Проекты, использующие методы автоматического и ручного отображения.
Подход Similarity Flooding (SF) работает с помеченными графами, основным принципом поиска связанных понятий является предположение, что элементы двух онтологий подобны, если подобны их смежные элементы. Предположение о близости двух элементов далее распространяется по их соседям. Инициализирующие предположения о близости вершин находятся простым сравнением имён. Для улучшения результатов инициализирующих данных используется внешний источник типа WordNet, без его привлечения качество работы метода сильно страдает.
SMatch позиционируется как система сопоставления схем, однако также упоминается постоянно, когда речь идёт об интеграции онтологий. Проект транслирует понятия в логические формулы и сопоставляет понятия онтологий первым делом с использованием WordNet. Решатель SAT используется для проверки отношений эквивалентности, включения, пересечения.
В проекте OLA утверждается, что методы оценки расстояния строк имеют большую производительность и эффективность в сравнении методами оценки близости определений, основанными на использовании внешних источников, в частности WordNet, за счёт времени обращения к внешним источникам. OLA основан на оценке терминологических и структурных расстояний между понятиями онтологий численно в интервале от 0 до 1. Близость представляется как множество формул, каждая переменная которой представляет подобие сущностей. Определения формул соответствуют определению функции близости и определениям онтологических сущностей. Проект работает с онтологиями в модели OWL Light.
SODA - инструмент для выравнивания структурных онтологий в модели OWL DL с использованием методов оценки близости. Обе онтологии преобразуются в графы DL-GRAPH, затем вычисляется локальное подобие лингвистическими и структурными методами, а затем оценивается семантическая близость.
В подходе QOM замечено, что на время работы алгоритма поиска отображения непосредственно влияет количество вероятных пар. Здесь применяется эвристический метод оценки структуры онтологий, позволяющий уменьшить количество кандидатов на отображение. На этапе оценки близости QOM избегает полной попарной оценки деревьев онтологии и ограничивает число дорогостоящих сравнений. Там, где используются итерации, ограничивается их количество, утверждая на тестах, что дальнейшие итерации не сильно влияют на результат. Констатируется, что оптимизация операций уменьшает качество отображения, а использование комбинации подходов его увеличивает. В целом, QOM показывает неплохие результаты при разнице во времени работы на порядок относительно других методов.
FCA-Merge - метод для сравнения онтологий, которые имеют набор общих экземпляров или набор общих документов, аннотируемых с помощью концептов исходных онтологий. Основываясь на этой информации, система производит решетку понятий, связывающую концепты исходных онтологий. Алгоритм предлагает отношения эквивалентности и подкласса. Затем эксперт анализирует результат и использует его как руководство для создания объединенной онтологии. Однако предположение, что две объединяемые онтологии используют общий набор экземпляров или имеют набор документов, представительных для данной проблемной области, и каждый документ должен аннотироваться терминами обоих источников слишком жесткое и на практике такая ситуация происходит редко. В качестве альтернативы, авторы предлагают использовать методы обработки естественного языка для аннотации набора документов понятиями этих двух онтологий.
Проект GLUE представляет оригинальный подход к связыванию онтологий, использующий обучающиеся машины для предположения близости элементов онтологий по данным экземпляров понятий. Онтологии определяются как таксономии понятий с атрибутами. Во время фазы обучения находятся шаблоны и правила сопоставления элементов онтологий. Точность предположения зависит от качества обучения. Используется несколько машин обучения и метаобучатель, взвешивающий их результаты в соответствии с тем, какие результаты выдавал конкретный подход во время обучения. Для многих онтологий не существует данных, состоящих из экземпляров понятий, в этом случае метод не применим.
4. ИНТЕГРИРОВАННЫЙ ПОДХОД К РЕШЕНИЮ ПРОБЛЕМЫ ОТОБРАЖЕНИЯ ОНТОЛОГИЙ
Создание промышленных систем, основанных на онтологиях, требует методов и инструментов, как для построения онтологий, так и для целого ряда задач, связанных с их сопровождением. Для построения онтологий с середины 90-х годов прошлого века начали создаваться среды разработки онтологий. В последующие годы параллельно с развитием средств разработки онтологий появились средства редактирования и сопровождения онтологий, средства отображения, выравнивания и объединения онтологий, а также средства аннотирования онтологий. Таким образом, к настоящему времени сформировалась целая инженерия онтологий [29].
Одним из центральных понятий инженерии онтологий является понятие «отображение онтологий» (ontology mapping), под которым понимается деятельность по установлению соответствия между несколькими онтологиями или, другими словами, нахождение семантических связей подобных элементов из разных онтологий. С наиболее общей точки зрения важность задачи отображения онтологий обусловлена тем фактом, что мощность знаний, заключенных в онтологиях, проявляется в полной мере только в том случае, когда удается учесть взаимосвязи независимых онтологий - установление факта подобия сущностей в разных онтологиях означает извлечение из этих онтологий дополнительных знаний [30].
Близкой к проблеме отображения онтологий является проблема выравнивания онтологий (ontology alignment), которая заключается в том, чтобы установить различные виды соответствия между двумя онтологиями, а затем сохранить исходные онтологии вместе с информацией о найденных соответствиях с тем, чтобы в дальнейшем использовать информацию о взаимосвязях онтологий. Отметим также, что на основе отображения онтологий решается задача интеграции онтологий (ontology merging) - задача создания новой онтологии или ее фрагментов из двух и более исходных онтологий [30].
Онтологический инжиниринг подразумевает глубокий структурный анализ предметной области. Приведем простейший алгоритм онтологического инжиниринга:
- выделение концептов - базовых понятий данной предметной области;
- определение «высоты дерева онтологий» - количество уровней абстракции;
- распределение концептов по уровням;
- построение связей между концептами - определение отношений и взаимодействий базовых понятий;
- консультации с различными специалистами для исключения противоречий и неточностей [31].
В основе онтологического анализа лежит описание системы (например корпорации) в терминах сущностей, отношений между ними и преобразование сущностей, которое выполняется в процессе решения определенной задачи.
Основной характерной чертой этого подхода является, в частности, разделение реального мира на составляющие и классы объектов и определение их онтологий, или же совокупности фундаментальных свойств, которые определяют их изменения и поведение. Эти подходы и методологии базируются на следующих принципах проектирования и реализации онтологии.
Ясность - онтология должна эффективно передавать смысл введенных терминов, ее определения должны быть объективны, а для их объективизации должен использоваться четко фиксированный формализм.
Согласованность - все определения должны быть логически непротиворечивы, а те утверждения, которые выводимы в онтологии, не должны противоречить ее аксиомам.
Расширяемость - необходимо проектировать онтологию так, чтобы ее словари терминов можно было расширять без ревизии уже существующих понятий.
Минимум влияния кодирования - концептуализация онтологии должна быть специфицирована на уровне представления, а не символьного кодирования.
Минимум онтологических обязательств - онтология должна содержать только наиболее существенные предположения о моделируемой ПО, чтобы оставлять свободу расширения и специализации [32].
4.1 Критерии подобия концептов онтологий
Задача отображения онтологий возникает во многих областях науки и техники, например, при организации понятийного контроля знаний субъекта обучения в интеллектуальной обучающей системе, при моделировании организаций в задачах организационного проектирования, при проектировании персонифицированных информационных ресурсов над Wеb-сайтами со слабоструктурированными данными, при построении цифровых (электронных) библиотек.
В работе рассмотрены критерии и мультикритерии подобия онтологий. На этой основе дан обзор методов автоматического отображения онтологий. Рассматриваемые критерии подобия онтологий построены на основе подобия сущностей соответствующих семантических сетей, дескриптивной логики, ограничений и правил и пр. Все критерии являются транзитивными: если А подобно В, и В подобно С, то А подобно С. Таким образом, рассматриваемые критерии можно использовать для установления подобия более, чем двух онтологий.
Для иллюстраций в работе используется язык описания онтологий OWL (Web Ontology Language).
Компоненты, из которых состоит онтология, зависят от используемой модели онтологии. Обычно онтология описывается с помощью
- концептов (понятий, классов, сущностей, категорий),
- атрибутов концептов (слотов, свойств, ролей),
- отношений между концептами (связей, зависимостей, функций),
- дополнительных ограничений (аксиом, фасет).
Элементы предметной области (элементы данного концепта) называются экземплярами. Зависимость между концептами, которая включает в себя необходимое условие и следствие выполнения этого условия, называется правилом. Онтология вместе с множеством соответствующих экземпляров составляет базу знаний.
Подобие некоторых сущностей x, y определяется с помощью функции подобия sim(x,y)[0,1], которая обладает следующими свойствами :
- sim (x,y)=1x=y (объекты x, y идентичны);
- sim(x,y)=0 (объекты x, y совершенно разные и не имеют схожих характеристик);
- sim(x,y)=1 (свойство возвратности функции подобия);
- sim(x,y)=sim(y,x) (свойство симметричности функции подобия).
Пусть O1, O2 - рассматриваемые онтологии, bi,jOi - некоторая сущность онтологии Oi, i=1,2. Подобие сущностей b1,2, b2,1 означает, что sim(b1,2, b2,1)t, где t - пороговая величина (уровень подобия, уровень отсечения).
Отображение онтологии O1 на онтологию O2 означает попытку найти для каждого из концептов онтологии O1 подобный ему концепт в онтологии O2. Другими словами, отобразить онтологию O1 на онтологию O2 означает отобразить каждую из сущностей b1,2 онтологии O1 на соответствующую сущность b2,1 онтологии O2.
Если онтология O2 есть отображение онтологии O1, то этот факт записывается в виде map(O1)= O2.
В работе было выделено 19 критериев подобия для автоматического отображения онтологий:
1) Критерии на основе подобия идентификаторов или URI сущностей.
Критерий L1. Первым из критериев этого класса является критерий на основе идентификаторов сущностей (меток). Критерий формулируется следующим образом: если метки двух сущностей подобны, то эти сущности подобны. Вместо имен сущностей могут сравниваться имена их синонимов (с использованием существующих словарей общей и профессиональной лексики или тезаурусов).
Критерий L2. Критерий строится на основе идентификаторов сущностей, уникальных для каждой из сущностей, например, URI (Uniform Resource Identifier) и формулируется следующим образом: если две сущности имеют подобные URI, то эти сущности подобны.
2) Критерии на основе семантической сети онтологии.
Критерий L3. Поскольку сущности состоят в отношениях с другими сущностями через свои атрибуты, имеет место следующий критерий подобия: если атрибуты двух сущностей подобны, то эти сущности подобны.
Критерий L4. Ограничить отношения между сущностями можно путем задания области применения (domain) и диапазона (range) соответствующих атрибутов сущностей. Это обстоятельство позволяет сформировать следующий критерий подобия отношений: если область применения и диапазон двух отношений подобны, то такие отношения подобны.
3) Критерии на основе дескриптивной логики.
Критерии данного класса охватывают онтологии, которые обладают сложностью, достаточной для их описания дескриптивными логиками.
Здесь «умные люди», «книги» и «умный человек» - концепты; «читают» - отношение; «Сергей» - экземпляр. Экземпляр «Сергей» наследует отношение родительского понятия. Пример дескриптивной логики на языке OWL имеет вид, который изображен на рисунке.
Таблица 4.1 - Пример дескриптивной логики
Отношение двух концептов |
Отношение экземпляра и концепта |
Отношение экземпляра и концепта |
|
умные люди читают книги |
Сергей читает книги |
Сергей - умный человек |
Критерий L5 формируется, исходя из посыла, что подобные концепты с большой вероятностью имеют подобные родительские понятия: если родительские понятия двух концептов подобны, то сами концепты также подобны.
Критерий L6 основан на подобии дочерних понятий: если дочерние понятия сравниваемых концептов подобны, то эти концепты также подобны.
Размещено на http://www.allbest.ru/
Рисунок 4.1 - Пример дескриптивной логики написанный на языке OWL
Критерий L7 основан на подобии концептов, относящихся к тому же уровню иерархии понятий: если концепты имеют подобные концепты того же уровня иерархии, то они также подобны.
Критерии L8 , L9 строятся на основе подобия атрибутов дочерних и родительских сущностей:
- если подобны атрибуты дочерних сущностей, то атрибуты родительских сущностей также подобны (L8);
- если подобны атрибуты родительских сущностей, то атрибуты дочерних сущностей также подобны (L9).
Критерий L10. Поскольку, как отмечалось выше, экземпляр представляет собой элемент соответствующего концепта, он наследует все атрибуты этого концепта. Поэтому имеет место следующий критерий подобия: если концепты включают в себя подобные экземпляры, то эти концепты подобны.
Критерий L11 является обратным по отношению к критерию L10 и записывается в виде: если экземпляры принадлежат подобным концептам, то эти экземпляры подобны.
Критерий L12 близок к критерию подобия L10 и формулируется следующим образом: если концепты имеют схожую малую/большую часть экземпляров, эти понятия подобны. В отличие от критерия L10,подобие в данном критерии определяется подобием структуры дочерних элементов, а не уровнем подобия самих элементов.
Критерий L13 имеет следующую формулировку: если два экземпляра связаны с некоторым другим экземпляром подобными отношениями, то эти экземпляры подобны. Критерий L14 является обратным по отношению к критерию L13 и формулируется следующим образом: если некоторое отношение связывает экземпляры с одним и тем же экземпляром, то сравниваемые отношения могут быть подобны.
4) Критерии на основе ограничений.
Критерий L15 основан на использовании отношений вида «SameClassAs» и «SameIndividualAs»: если две сущности связаны между собой отношением «sameClassAs» или отношением «sameIndividualAs», то эти сущности подобны.
Критерий L16 основан на использовании отношений вида «EquivalentClass», «EquivalentProperty», «SameAs»: если две сущности связаны между собой отношениями «EquivalentClass», «EquivalentProperty», «SameAs», то эти сущности подобны.
5) Критерии на основе правил.
Подобными называются правила, которые имеют подобные условия, а также подобные следствия выполнения правила.
Критерий L17 имеет вид: если две сущности связаны между собой подобными правилами, то эти сущности подобны.
6) Критерии, учитывающие специфику словаря приложения.
Рассмотренные выше критерии подобия онтологий используют свойства общего определения онтологий. Кроме этого, возможны онтологии, которые используют особый словарь. Если этот словарь строго определен и общедоступен, то он также может быть использован для формирования критериев подобия онтологий.
В качестве примера рассмотрим SWAP-системы, в которых каждому файлу присваивается уникальный хэш-код. Для таких систем имеют место критерии L18 , L19:
- если хэш-коды двух элементов одинаковы, то и элементы подобны;
- файлы одинакового MIME-type подобны, как минимум, по формату.
Чаще всего в качестве мультикритерия подобия используется аддитивная свертка критериев L1 - L19 - т.е. их взвешенная сумма
, (4.1)
где b1,2O1, b2,1O2 - сущности онтологий О1 О2, соответственно;
- весовой коэффициент критерия .
4.2 Меры семантической близости концептов онтологий
Онтология - это спецификация концептуализации предметной области (ПО). Онтология состоит из организованных в иерархию понятий, отношений между понятиями и атрибутов понятий, а также аксиом и правил вывода. Понятия представляют множества экземпляров. Понятия, экземпляры, отношения и атрибуты будем называть онтологическими термами.
Меры близости онтологических термов используют различные семантические характеристики сравниваемых термов - их свойства (атрибуты и отношения с другими термами), взаимное положение в онтологических иерархиях. В работе рассматриваются меры семантической близости, предполагающие однозначную интерпретацию термов для одной онтологии.
Онтологический подход обеспечивает новый уровень в решении задач поиска и интеграции информации. Запрос пользователя, как правило, не полностью отражает его интерес, так как пользователь, с одной стороны, не знает всех терминов и структур данных, заложенных в систему, с другой - не всегда точно выражает, что он ищет. Использование семантической близости дает возможность расширять запросы и ранжировать результаты запросов. Другими словами, терм c может быть представлен как размытое (нечеткое) множество, включающее (кроме этого терма) семантически близкие термы со значением семантической близости выше заданного порога, причем семантическая близость определяет принадлежность к нечеткому множеству: с+ = {1/с, S(с,с1)/с1, S(c,c2)/c2, …, S(c,cn)/cn}. При интеграции информации, например при операциях над онтологиями, использование мер близости позволяет автоматически находить семантически близкие понятия, принадлежащие к разным системам концептуализации.
Ключевым моментом в решении задачах поиска и интеграции является разработка количественных оценок семантической близости. В работе представлен обзор методов, которые используют знания, заложенные в онтологии, для оценок семантической близости термов.
В основу многих онтологических мер близости положен теоретико-множественный подход Тверски [1], определяющий меру близости двух объектов, основанную на сопоставлении свойств (feature matching). Мера близости S(a,b) между объектами a и b является функцией трех аргументов A?B, A-B, B-A, где A и B - множества свойств этих объектов, должна удовлетворять аксиомам монотонности, независимости, разрешимости и инвариантности и определяется формулой (contrast model):
(4.2)
В развитие модели Тверски была построена ratio model:
(4.3)
В большинстве методов вычисления мер близости используется ratio model, а в качестве функции f - мощность множества-аргумента.
Близость двух понятий онтологии может быть оценена по положению вершин, соответствующих этим понятиям в таксономической иерархии (IS-A). Простейшая мера близости такого рода основана на длине кратчайшего пути, измеряемого числом вершин (или ребер) в пути между двумя соответствующими вершинами таксономии [2], с учетом глубины таксономической иерархии [3] - чем меньше длина пути между вершинами, тем они ближе:
, (4.4)
где N - глубина дерева, d(c1, c2) - длина кратчайшего пути между вершинами.
Предложена мера близости, учитывающая только глубины вершин понятий:
, (4.5)
где N(LCS) - глубина наименьшей общей родовой вершины - ближайшего общего родителя (least common subsumer - LCS), N(c1) и N(c2) - глубины вершин.
Предложена мера близости, учитывающая два параметра: длину кратчайшего пути между вершинами и глубину LCS-вершины - с учетом их весов a и b. Наибольшая корреляция с экспертными оценками получена при применении формулы:
, (4.6)
где d и N - длина кратчайшего пути между вершинами и глубина LCS-вершины.
При оценке семантической близости понятий предлагается ограничивать конфигурацию пути: длину пути и количество перегибов. Предполагается, что два понятия семантически близки, если соединены достаточно коротким путем, который имеет малое количество перегибов. Рассматриваются пути либо, состоящие из совокупности иерархических отношений, направленных в одну сторону (например, последовательность отношений от потомка к предку), либо включающие ровно один перегиб.
Для измерения близости используется семантическое расстояние SemDist, инверсное семантической близости: чем больше семантическое расстояние, тем меньше семантическая близость. Вводится понятие общей специфичности двух вершин CSpec:
, (4.7)
где N - глубина таксономического дерева. Чем меньше специфичность двух вершин, тем больше информации они разделяют и близость их больше.
Семантическое расстояние является функцией двух параметров - длины кратчайшего пути между вершинами и общей специфичности двух вершин:
, (4.8)
где б > 0, в > 0; k ? 1 - константа (обеспечивает нелинейность и положительность SemDist), d(с1, с2) - длина кратчайшего пути между двумя вершинами.
Вводится информационное содержание понятия IC (information content), которое вычисляется как частота встречаемости понятия и его подпонятий в стандартном корпусе текстов и трактуется как величина вероятности P(с). Если с2 - родитель для с1, то P(с1) ? P(с2). Чем абстрактнее понятие, тем меньше величина его IC. В [10] близость между двумя понятиями оценивается по IC ближайшего родителя сравниваемых понятий. Вместо глубины вершин используется их IC - «взвешенная» глубина. Таксономическая мера близости понятий определяется через так называемую «верхнюю котопию» (UC - upwards cotopy), содержащую все суперпонятия заданной вершины:
(4.9)
Предлагается асимметричная мера семантической близости. В зависимости от направления прохождения ребрам придается разный вес, так как потомок более подобен родителю, чем родитель потомку.
Недостатком большинства мер, основанных на онтологических структурах, является симметричность (экспертные оценки показывают, что мера близости не всегда симметрична). Кроме того, эти меры независимы от контекста и чувствительны к структуре иерархии.
Предлагаются меры близости, основанные на неиерархических («горизонтальных») отношениях и атрибутах. Оценка близости понятий, использующая горизонтальные отношения, опирается на предположение, что если два понятия имеют одно и то же отношение с третьим, то они ближе, чем два понятия, которые имеют это же отношение с различными понятиями, т. е. близость двух понятий зависит от близости понятий, с которыми они имеют отношения. Таким образом, мера близости вычисляется рекурсивно. Атрибутивная мера близости основана на близости значений общих атрибутов понятий. Атрибуты можно рассматривать как отношения, диапазоны которых литералы, числа, строки и другие типы данных. В качестве меры близости для строковых данных можно использовать пронормированное редакторское расстояние [15], для чисел - инверсию разности, пронормированную максимальным значением атрибута.
Гибридные меры являются свертками перечисленных мер близости понятий. Чем полнее будут учитываться характеристики двух сущностей с разных точек зрения, тем более качественную меру близости можно получить. В связи с этим наиболее перспективными представляются именно гибридные меры, сочетающие несколько подходов.
Чаще всего в гибридных мерах используется аддитивная свертка:
, (4.10)
где - мера близости по определенному критерию, вес wi определяет относительную важность критерия, сумма весов равна 1, n - число критериев.
Распространенная модификация аддитивной свертки основана на использовании сигмоидальной функции, которая позволяет повысить веса мер, имеющих большие значения, и практически пренебречь мерами с малыми значениями (sig(x)=1/(1+e-ax), a > 0):
(4.11)
Веса могут определяться интерактивно экспертами и/или пользователями, а также автоматически с помощью обучаемой нейронной сети [16] или генетического алгоритма [17].
Трудности сравнения разных онтологий ПО (различных концептуализаций одной и той же ПО) заключаются в различии используемых лексиконов и в различных путях концептуализации и ее представления. Отображение онтологии О1 на онтологию О2 означает попытку найти для каждого из концептов онтологии О1 подобный ему концепт в онтологии О2.
Подобные документы
Система классов и свойств языка RDFS. Реификация или материализация утверждений. Возможности RDF, RDF Schema в представлении онтологий. Способы представления RDF-описаний. Структура и базовые элементы OWL-онтологии. Языки запросов к RDF-хранилищам.
презентация [312,1 K], добавлен 01.09.2013Оценка качества поисковых систем. Индексирование по ключевым словам. Внутренние представления запросов и документов на информационно-поисковом языке. Способы улучшения поиска при помощи тезаурусов и онтологий. Ранжированный поиск (vector-space model).
лекция [31,5 K], добавлен 19.10.2013Проблема выбора товара в Интернете. Типы и свойства онтологий как части концепции Semantic Web. Разработка web-приложения для выбора музыкального инструмента: создание иерархии онтологий для предметной области "Гитара", формирование SPARQL-запроса.
дипломная работа [2,2 M], добавлен 20.04.2012Тезаурус для автоматического концептуального индексирования как особый вид тезауруса. Подходы к описанию отношений при разработке онтологий. Родовидовое отношение выше-ниже. Семантическое смещение. Формальная онтология. Сравнение поисковых механизмов.
презентация [721,9 K], добавлен 19.10.2013Формализации в онтологии областей знаний с помощью концептуальной схемы. Определение атрибутов класса и свойств экземпляров. Создание экземпляров класса и DL-Query запросов. Методика использования для разработки онтологии среды разработки Protege.
курсовая работа [2,0 M], добавлен 18.06.2014Разработка web-сервиса как услуги, предоставляемой пользователю. Продажа товара (автомобилей) в Интернете, проблема выбора. Онтологии как часть концепции Semantic Web. Применение онтологий, их основные типы и свойства. Особенности реализации онтологии.
курсовая работа [57,4 K], добавлен 17.04.2012Язык запросов SPARQL. Система классов и свойств языка RDFS. Интенсионал и экстенсионал. Парадокс Рассела. Списки, коллекции и контейнеры ресурсов, текстовые комментарии для создания удобных для чтения примечаний. Утверждение об авторстве утверждения.
презентация [355,8 K], добавлен 19.10.2013Построение баз знаний для семантической сети. Цели создания и язык представления онтологий. Структура исследований в области многоагентных интеллектуальных информационных систем, архитектура агента. Экономическое обоснование разработки базы знаний.
дипломная работа [1,6 M], добавлен 29.09.2013Построение онтологии предметной области для анализа глобальных процессов на основе информации, получаемой из новостных лент. Средства разработки онтологий, используемых для поиска событий, фактов, извлечённых из СМИ; моделирование экономических рисков.
курсовая работа [3,4 M], добавлен 27.08.2017Обзор существующих методов межпроцедурного анализа. Получение входных и выходных данных подпрограмм с помощью графа алгоритма. Описание входных и выходных данных подпрограммы в терминах фактических параметров. Определение параллелизма по графу алгоритма.
учебное пособие [77,5 K], добавлен 28.06.2009