Представление знаний в информационных системах

Потребность отражения человеческих знаний в памяти компьютера. Модели представления знаний. Продукционные и формально-логические модели. Исчисление предикатов первого порядка. Основные свойства теории фреймов. Аналитическая платформа Deductor.

Рубрика Программирование, компьютеры и кибернетика
Вид курсовая работа
Язык русский
Дата добавления 09.04.2015
Размер файла 538,2 K

Отправить свою хорошую работу в базу знаний просто. Используйте форму, расположенную ниже

Студенты, аспиранты, молодые ученые, использующие базу знаний в своей учебе и работе, будут вам очень благодарны.

Размещено на http://www.allbest.ru/

Федеральное агентство по образованию РФ

ГОСУДАРСТВЕННОЕ ОБРАЗОВАТЕЛЬНОЕ УЧРЕЖДЕНИЕ ВЫСШЕГО ПРОФЕССИОНАЛЬНОГО ОБРАЗОВАНИЯ

Тверской государственный технический университет

Курсовая работа

Представление знаний в информационных системах

Выполнил: студент группы ИСТ

Чубов В.А.

Проверил: Семенов Н.А.

Тверь - 2014 г.

План курсовой работы

Введение

1.1 Аналитическая часть

1.2 Понятие знаний

1.3 Модели представления знаний

2. Проектная часть

2.1 Программное средство Deductor

2.2 Контрольный пример

3. Заключение

Список литературы

Введение

Представление знаний - вопрос, возникающий в когнитологии (науке о мышлении), в информатике и в исследованиях искусственного интеллекта. В когнитологии он связан с тем, как люди хранят и обрабатывают информацию. В информатике - с подбором представления конкретных и обобщённых знаний, сведений и фактов для накопления и обработки информации в ЭВМ. Главная задача в искусственном интеллекте (ИИ) - научиться хранить знания таким образом, чтобы программы могли осмысленно обрабатывать их и достигнуть тем подобия человеческого интеллекта.

Под термином «представление знаний» чаще всего подразумеваются способы представления знаний, ориентированные на автоматическую обработку современными компьютерами, и, в частности, представления, состоящие из явных объектов и из суждений или утверждений о них. Представление знаний в подобной явной форме позволяет компьютерам делать дедуктивные выводы из ранее сохранённого знания.

Интеллектуальные информационные системы (ИИС) - результат развития обычных информационных систем (ИС), которые сосредоточили в себе наиболее наукоемкие технологии с высоким уровнем автоматизации не только процессов подготовки информации для принятия решений, но и самих процессов выработки вариантов решений, опирающихся на полученные ИС данные.

Понятие знаний

Принятие решений относительно действий или поведения в той или иной ситуации любых субъектов осуществляется на основе информационных процессов (ИП). ИП реализует отношения объекта и субъекта и представляет собой восприятие субъектом объективной реальности в виде данных, переработку этих данных в соответствии с целевой установкой и имеющимися знаниями о зависимостях фактов в информацию. На основе полученной информации происходят обновление знания субъекта, выработка решения по возможному изменению состояния объекта и целевой установки субъекта. Следовательно, ИП может быть рассмотрен в трех аспектах:

- синтаксический аспект - предполагает отображение объективной реальности в некоторой среде или на определенном языке;

- семантический аспект - определяет понимание и интерпретацию данных на основе знаний субъекта, которые отражают зависимости, закономерности взаимодействия объектов;

- прагматический аспект - предусматривает оценку полезности полученного нового знания субъекта в соответствии с целевой установкой для принятия решения.

В широком смысле под информацией понимаются все три аспекта отражения ИП. Любая ИС обеспечивает ввод данных, хранение, обработку информации и вывод результатов.

Знание имеет двоякую природу: предметную (фактуальную) и проблемную (операционную). Предметное знание представляет известные сведения об объектах отражаемой реальности и накапливаются в базе данных (БД). Проблемное знание отражает зависимости и отношения между объектами, которые позволяют интерпретировать данные или извлекать из них информацию. Проблемное знание представляются либо в алгоритмической форме, либо в декларативной форме в виде БЗ. Часто предметные знания называют экстенсиональными (детализированными), а проблемные - интенсиональными (обобщенными).

ИП с помощью компьютерной информационной системы сводится к адекватному соединению предметных и проблемных знаний, что в различных ИС осуществляется по-разному. В системах, основанных на БД, происходит отделение предметных и проблемных знаний. Первые организуются в виде БД, вторые - в виде алгоритмов и соответствующих программ. В качестве посредника при этом выступает некоторая система управления БД (СУБД). Концепция независимости программ от данных позволяет повысить гибкость ИС по выполнению информационных запросов, но пользователь должен знать структуру БД и алгоритм решения задачи. Недостатками традиционных ИС является слабая адаптивность к изменениям в предметной области и невозможность решения плохо формализованных задач.

Эти недостатки устраняются в ИИС. При этом проблемные знания выделяются в БЗ, которая в декларативной форме хранит общие для различных задач единицы знаний. Управляющая структура приобретает характер универсального механизма решения задач (механизма вывода).

Следующим шагом в развитии ИИС является выделение в самостоятельную подсистему (репозитарий) метазнания (знания о знаниях), которые описывают структуру предметных и проблемных знаний. Репозитарий отражает модель проблемной области в виде совокупности данных и правил. ИИС, обрабатывающие метазнания, получили название систем, основанных на моделях. В таких системах и программы, и структуры данных генерируются или компонуются из единиц знаний, описанных в репозитарии, каждый раз при изменении модели проблемной области [3].

Для ИИС, ориентированных на генерацию алгоритмов решения задач, характерны следующие признаки:

- развитые коммуникативные способности;

- умение решать сложные плохо формализуемые задачи;

- способность к самообучению;

- адаптивность.

Коммуникативные способности ИИС характеризуют способ взаимодействия конечного пользователя с системой, в частности, возможность формулирования произвольного запроса в диалоге с ИИС на языке, максимально приближенном к естественному. Сложные плохо формализованные задачи - это задачи, которые требуют построения оригинального алгоритма решения в зависимости от конкретной ситуации, для которой могут быть характерны неопределенность и динамичность исходных данных и знаний. Способность к самообучению - это возможность автоматического извлечения знаний для решения задач из накопленного опыта конкретных ситуаций. Адаптивность - способность к развитию системы в соответствии с объективными изменениями модели проблемной области.

Прежде чем приступить к изучению теории ИИС, необходимо определить основные понятия [2]:

Данные - это отдельные факты, характеризующие объекты, процессы и явления предметной области.

Знания - это закономерности предметной области, полученные в результате практической деятельности, позволяющие специалистам ставить и решать задачи в этой области. Другими словами, знания - это хорошо структурированные данные, или данные о данных, или метаданные.

Существуют десятки моделей представления знаний для различных предметных областей. Большинство из них может быть сведено к следующим классам: продукционные модели; семантические сети; фреймы; формальные логические модели.

Искусственный интеллект (ИИ) является междисциплинарной наукой, которая включает исследования в области экспертных систем (ЭС), систем поддержки принятия решений (СППР), экономических советующих систем (ЭСС), интеллектуальных интерфейсов, многоагентных систем, мягких вычислений, генетических алгоритмов и др.

Знания могут быть классифицированы по следующим категориям [2]:

· поверхностные - знания о видимых взаимосвязях между отдельными событиями и фактами в предметной области;

· глубинные - абстракции, аналогии, схемы, отображающие структуры и природу процессов, протекающих в предметной области. Эти знания объясняют явления и могут использоваться для прогнозирования поведения объектов.

Современные ЭС работают с поверхностными знаниями. Исторически первичными были процедурные знания, то есть знания, «растворенные» в алгоритмах. Эти знания управляют данными. Для их изменения необходимо изменить программу. С развитием ИИ приоритет данных постепенно изменялся, и все большая часть данных сосредоточивалась в структурах данных (таблицы, списки, графы), то есть увеличивалась роль декларативных знаний.

ИИС предназначены для решения задач, требующих высочайшей квалификации исполнений. Характерной особенностью ИИС является наличие БЗ - совокупности знаний, записанной на магнитный носитель в форме понятной эксперту и пользователю. Эксперт - высококвалифицированный специалист, готовый к передаче своей компетентности и опыта БЗ. Пользователь - специалист предметной области, для которого предназначена ИИС. Под предметной областью понимается множество объектов, значений их характеристик и связывающих их отношений. Проблемная область определяется характеристиками соответствующей предметной области и характеристиками типов решаемых в ней задач.

Потребность отражения человеческих знаний в памяти компьютера породили новое направление в информатике - инженерию знаний. Инженер по знаниям (когнитолог) - специалист, выступающий в роли буфера между экспертом и БЗ.

Основными разновидностями ИИС являются экспертные системы, системы поддержки принятия решений и экономические советующие системы.

ЭС применяются для решения неформализованных задач, которые обладают одной или несколькими из следующих характеристик [4,5]:

- задачи не могут быть заданы полностью в числовой форме;

- исходные данные и знания о предметной области обладают неоднозначностью, ошибочностью и противоречивостью;

- цели не могут быть выражены в терминах точно определенной целевой функции;

- алгоритмическое решение задач отсутствует;

- алгоритмическое решение существует, но его нельзя использовать по причине большой размерности пространства решения и ограниченности ресурсов компьютера.

Для решения задач принятия решений в условиях определенности используются методы математического программирования. Однако в условиях неопределенности, неполноты и нечеткости знаний задача многократно усложняется. Для того, чтобы СППР оставалась работоспособной в условиях изменяющегося окружения, необходима реализация механизмов ее самообучения. К СППР предъявляются следующие основные требования:

- оказывать квалифицированную поддержку процесса принятия решения на уровне консультанта;

- обладать возможностями самообучения, то есть уметь добавлять новые знания в БЗ, накапливать их и обрабатывать;

- уметь работать с неполной и нечеткой информацией;

- поддерживать многовариантные процессы принятия решений;

- оценивать последствия принимаемых решений.

ЭСС является ИИС, ориентированными на решение широкого круга экономических задач, и могут быть разделены на два класса:

1. Системы, воспроизводящие осознанные мыслительные усилия человека (дедуктивные).

2. Системы, воспроизводящие неосознанные (подсознательные) мыслительные действия человека (индуктивные).

К первому классу относятся:

- расчетно-диагностические системы, в основе которых лежит ясное понимание целей принятия решений. Цель, трансформируемая в дерево целей, накладывается на дерево экономических показателей предприятия. В результате получается синтезированное дерево «цель - показатель», которое способно обеспечить расчет нужных для достижения целей ресурсов и резервов;

- ЭС приближенных рассуждений создаются в том случае, если цель принятия решений сформулировать невозможно или нецелесообразно, однако ее можно заменить гипотезой. Для создания систем данного класса формулируются правила вывода типа «ЕСЛИ-ТО», которые синтезируются в дерево вывода. Результатом использования системы является оценка правдивости заданной пользователем гипотезы;

- системы поддержки исполнения решений подразделяются на системы обучающие и системы рекомендательно-контролирующие. Основная цель - предоставить управленческому персоналу недостающие знания, обучить управленческий персонал конкретным действиям, необходимым для выполнения рекомендаций, предоставленных СППР с последующим контролем исполнения.

Ко второму классу относятся:

- системы нейросетевых вычислений. Осознанные знания являются лишь небольшой частью от общего объема знаний, которыми оперирует человек в повседневной жизни. Многие действия человек выполняет подсознательно или неосознанно. В данном случае классические модели бесполезны, так как предполагают наличие четко или нечетко сформулированных правил. Используемый для создания ЭСС нейросетевых вычислений эволюционный подход ориентирован на индуктивное обобщение и вывод. В основе построения систем индуктивного характера лежат нейросетевые технологии. Искусственная нейросеть предназначена главным образом для того, чтобы на основе анализа большого объема информации, отражающей частные случаи какого-либо явления, выявить общие закономерности, которые в свою очередь могут быть использованы для распознавания новых частных случаев. Нейросеть рассматривается в качестве «черного ящика», для которого известны лишь вход, выход и некоторые другие внешние параметры;

- системы, ориентированные на естественно-языковые запросы. Исследования в этой области находятся на начальном этапе развития. Основная сложность заключается в предоставлении неосознанных (ассоциативных) знаний. БЗ представляется в форме семантической сети, то есть ориентированного графа, вершина которого соответствует понятиям, а дуги - отношениям между ними, отражающие осознанные (логические) знания.

Кроме этого, ЭСС содержит лингвистический процессор и базу ассоциаций. Лингвистический процессор предназначен для выявления с помощью лингвистических структур той БЗ, которая касается данного запроса. Выявленная часть семантической сети используется блоком обработки для последующей выдачи информации пользователю. Если в БЗ явно не присутствуют необходимые знания, то подключается база ассоциаций, которая пытается восполнить недостающую информацию. В ней подобно нейросетям активизируются те ассоциации, которые по специально рассчитанным коэффициентам наиболее близки к анализируемому запросу.

Модели представления знаний

Знания - это хорошо структурированные данные, а данные - информация, полученная в результате наблюдений или измерений, отдельных свойств (атрибутов), характеризующих объект, процессы и явления предметной области. В настоящее время разработаны различные модели представления знаний, которые сводятся к классам:

- продукционные модели;

- формально-логические модели;

- фреймовые модели;

- семантические сети.

Продукционные и формально-логические модели относятся к классу модульных, т.е. оперируют отдельными элементами знаний (правилами, аксиомами предметной области). Фреймовые модели и семантические сети относятся к классу сетевых моделей, поскольку представляют возможность связывать фрагменты знаний через отношения.

Продукционная модель

Продукционная модель, или модель, основанная на правилах, позволяет представить знания в виде конструкций типа «Если (условие), то (действие)». Под условием (антецедентом) понимается некоторое предложение - образец, по которому осуществляется поиск в БЗ, а под действием (консеквентом) - действия, выполняемые при успешном исходе поиска. Они могут быть промежуточными, выступающими далее как условия, и терминальными (целевыми), завершающими работу системы.

Пример 3.1

Если «двигатель не заводится» и «стартер не работает» то «неполадки в системе электропитания стартера»

Антецедент и консеквент формируются из атрибутов (двигатель, стартер) и значений (не заводится, не работает).

Пример 3.2

Если «матрица значений регрессоров мультиколлинеарна» и «сокращение числа регрессоров невозможно» то «использование для построения линейной модели метода гребневой (ридж) регрессии».

В данном случае атрибутами являются матрица значений регрессоров и число регрессоров, а значениями - мультиколлинеарность и сокращение невозможно.

В рабочей памяти продукционной системы хранятся пары «атрибут - значение», истинность которых установлена в процессе решения конкретной задачи к некоторому текущему моменту времени. Содержание рабочей памяти изменяется в процессе решения задачи, что происходит по мере срабатывания правил. Правило срабатывает, если при сопоставлении фактов, содержащихся в рабочей памяти, с образцом правила имеет место совпадение. Для представления реальных знаний используются описания с помощью триплета «объект - атрибут - значение». С введением триплета правила из БЗ могут срабатывать более одного раза в процессе одного логического вывода, поскольку одно правило может применяться к различным объектам.

Существует два типа продукционных систем - с прямым выводом и с обратным выводом. Прямой логический вывод реализует стратегию от фактов к заключению или от данных к поиску цели. При обратном выводе выдвигаются гипотезы, которые могут быть подтвержены или опровергнуты на основании фактов, поступающих в рабочую память.

Продукционная модель представления знаний используется более чем в 80% ЭС [8], поскольку обладает наглядностью, высокой модульностью, легкостью внесения дополнений и изменений, простотой логического вывода. К недостаткам продукционных моделей следует отнести отличие от структуры знаний, свойственной человеку; неясность взаимных отношений правил; сложность оценки целостного образа знаний; низкую эффективность обработки знаний. В настоящее время имеется большое число программных средств (ПС), реализующих продукционный подход по построению БЗ, например языки высокого уровня CLIPS, OPSS, «пустые» ЭС EXSYS, Kappa, GURU, инструментальные системы KEE, ARTS, PIES.

Формально-логическая модель

Формализация знаний основана на системе исчисления предикатов первого порядка, которая в свою очередь основывается на исчислении высказываний. Высказыванием называется предложение, принимающее только два значения: истина или ложь. Например: «Иван студент». Из простых высказываний с помощью слов: и, или, не, если - то, могут формироваться более сложные высказывания.

Иван студент и Татьяна студентка;

Иван студент или Татьяна студентка.

Логика высказываний оперирует логическими связями между высказываниями, то есть решает вопросы типа:

Можно ли на основе высказывания А получить высказывание В?

Истинно ли высказывание В при истинности высказывания А?

Элементарные высказывания, т.е. те, которые нельзя разделить на частичные, могут рассматриваться как переменные логического типа, над которыми разрешены следующие логические операции: отрицание (¬); конъюнкция или логическое умножение (?); дизъюнкция или логическое сложение (?); импликация (>); эквивалентность (-). Исчисление высказываний позволяет формализовать лишь малую часть множества рассуждений, поскольку этот аппарат не позволяет учитывать внутреннюю структуру высказывания, которая существует в естественных языках.

Пример 3.3. Пусть сформулированы следующие высказывания:

P: Все люди смертны;

Q: Сократ - человек;

R: Сократ - смертен.

Можно составить формулу:

(P?Q) > R

Однако эта формула не является общезначимой, поскольку относится только к Сократу. Кроме того, высказывание R не выводится из P и Q, то есть при его отсутствии невозможно записать импликацию. Для достижения общезначимости Q необходимо разделить на две части: «Сократ» (субъект) и «человек» (свойство субъекта), что можно записать в виде некоторой функции:

человек (Сократ)

или в общем случае

человек (x)

Такая запись имеет внутреннюю структуру, т.к. значение высказывания является функцией его компонент, не является элементарным высказыванием и называется предикатом первого порядка.

Исчисление предикатов первого порядка - это формальный язык, используемый для представления отношений между объектами и для выявления новых отношений между объектами на основе существующих [7,10]. Алфавит языка исчисления предикатов первого порядка включает переменные, константы, предикаты, логические операции, функции, кванторы (). Конструкцией предложений в языке исчисления предикатов первого порядка управляют синтаксические правила.

Терм - это переменная, константа или результат применения функции к терму, например, a, x, f (x). Предложения языка исчисления предикатов первого порядка есть формулы, определенные следующим образом:

Если P - n-арный предикат (предикат от n аргументов) и t1, t2, …, tn - термы, тогда P (t1, t2, …, tn) - атомическая формула (атом).

Атом - это правильно построенная формула.

Если F1 и F2 - атомы, то F1 ? F2, F1 ? F2, F1 > F2, ¬F1 - тоже атомы.

Если F - формула и x - не связанная квантором переменная в F, тогда x (F) и x (F) - также атомы.

Чтобы избежать неоднозначности, необходимо определять формулы, в которых все переменные квантованы, т.е. связаны кванторами, например, x y ЛЮБИТ (x,y).

Такая формула называется замкнутой. Замкнутая формула имеет единственное истинное значение. Формула y ЛЮБИТ (x,y) является незамкнутой или открытой.

Для построения модели некоторой предметной области следует описать известные факты на языке логики предикатов и, используя ее результаты, построить систему, способную на основе имеющихся фактов строить некоторые новые предложения и отвечать на поставленные вопросы.

Пример 3.4. Пусть заданы предикаты:

E (x) - «x» въезжает в строку;

? (x) - «x» высокопоставленное лицо;

S (x,y) - «y» обыскивает «x»;

C (y) - «y» - таможенник;

P (x) - «x» способствует провозу наркотиков.

Тогда произвольные предложения на естественном языке могут быть записаны в виде:

1. Таможенники обыскивают всех, кто въезжает в страну, кроме высокопоставленных лиц:

x (E (x) ? ¬ ? (x) > (y (S (x,y) ? C (y)))).

2. Некоторые люди, въезжавшие в страну и способствовавшие провозу наркотиков, были обысканы исключительно людьми, способствовавшими провозу наркотиков:

x (E (x) ? P (x) ? (y (S (x,y) > P (y)))).

3. Никто из высокопоставленных лиц не способствовал провозу наркотиков:

x (P (x) > ¬ ? (x)).

4. Некоторые таможенники способствуют провозу наркотиков:

x (P (x) ? C (x)).

Задача состоит в том, чтобы, признав фактами предложения 1, 2, 3, доказать, что предложение 4 является истинным.

Для машинного решения вышеприведенной задачи используется методика автоматического формирования суждений, или метод дедукции. При этом последовательно реализуются процедуры: исключение знаков импликации; ограничение области действия знака отрицания; переименование переменных; вынесение кванторов в начало формулы; исключение кванторов и др. При автоматизации вывода доказательств методами исчисления предикатов требуется определить ряд процедур для выбора правил, позволяющих предотвратить «комбинаторный взрыв» и обеспечить проведение немонотонных рассуждений. Решением стало создание декларативных (непроцедурных) языков программирования, в частности Пролога. Программирование на Прологе состоит из этапов:

- объявление некоторых фактов об объектах и отношениях между ними;

- определения некоторых правил об объектах и отношениях между ними;

- формулировки вопросов об объектах и отношениях между ними.

Реально исчисление предикатов первого порядка в промышленных ЭС практически не используется. Формально-логическая модель представления знаний применима в основном в исследовательских системах, т.к. предъявляет очень высокие требования и ограничения к предметной области.

Фреймовая модель

Термин «фрейм» (англ. frame - каркас, рамка) был предложен Марвином Минским в 70-е годы XX века для обозначения структуры знаний при восприятии пространственных сцен. Фрейм - это абстрактный образ для представления стереотипа объекта, понятия или ситуации. В психологии и философии известно понятие абстрактного образа. Например, произнесение слова «комната» порождает образ жилого помещения (стены, потолок, пол, дверь, окна). Из этого описания ничего нельзя убрать, но есть «слоты» - незаполненные значения некоторых атрибутов (количество окон, высота потолков, цвет стен). В теории фреймов такой образ называется фреймом комнаты.

Различают фреймы-образцы (прототипы), хранящиеся в БЗ и фреймы-экземпляры, которые создаются для отображения реальных фактических ситуаций на основе поступающих данных. Модель фрейма является достаточно универсальной, поскольку позволяет отобразить все многообразие знаний через фреймы-структуры (заем, залог), фреймы роли (клиент, менеджер), фреймы-сценарии (банкротство, собрание акционеров), фреймы-ситуации (тревога, авария).

Структура фрейма представляется как список свойств:

(имя ФРЕЙМА:

(имя 1-го слота: значение 1-го слота),

(имя 2-го слота: значение 2-го слота),

(имя N-го слота: значение N-го слота)).

При описании предметной области для классов задач структурно-параметрической идентификации, прогнозирования временных рядов, распознавания образов используются классификационные фреймы (КФ) и фреймы-смысловые связки (ФСС).

В нормальных формах Бэкуса - Науэра КФ определяется следующим образом:

<КФ>::=<идентификатор><имя фрейма>:=<список классификаций>

<список классификаций>::={[<поле>:]}<классификация>

<поле>::=<идентификатор>

<классификация>::={<вариант>}

<вариант>::=<идентификатор>{<условие><альтернатива>}|<иденти-фикатор> <альтернатива>

<альтернатива>::=<текст>{<указание>}

<указание>::=<ссылка на фрейм>|<описание фрейма>|<принуди-тельное разрешение фрейма>

Пример 3.5. Применительно к предметной области регрессионного анализа КФ имеет вид:

К0 <цель исследования>:=

V1 <регрессионный анализ данных>

К1 <этапы решения задачи>:=

V1 <предварительный анализ исходных данных>

V2 <структурно-параметрическая идентификация регрессионных моделей>

V3 <оценка качества регрессионных моделей>

К2 <предварительный анализ исходных данных>:=

V1 <анализ корректности исходных данных>

V2 <проверка условий применимости регрессионного анализа>

V3 <функциональное преобразование матрицы регрессоров>

К7 <оценка качества регрессионных моделей>:=

V1 <для К6 = 1 ? К6 = 4>

V2 <для мультипликативных моделей>

V3 <для нелинейных нереализуемых моделей>

ФСС определяется конструкцией

<ФСС>::=<идентификатор><входной аргумент> <глагол> <выходной аргумент>

Пример 3.6. Применительно к предметной области регрессионного анализа ФСС имеет вид:

C0 <начало работы> требует

A <обеспечить ввод исходных данных>

B <назначить режим работы>

C1 <предварительный анализ исходных данных>

A <восстановление отсутствующих значений>

B <исключение аномальных значений отклика>

C <проверку значений отклика на нормальность распределения>

D <проверку значений отклика на статистическую независимость>

E <проверку матрицы регрессоров на мультиколлинеарность>

. . .

C3 <оценка качества регрессионных моделей> требует

A (если К7 = 1, то)

А1 <проверку нормальности распределения значений остатков>

А2 <проверку статистической независимости значений остатков>

С (если К7=3, то)

С1 <вычисление F-статистик>

С2 <визуальный анализ значений остатков>

Множество КФ и ФСС служат основой для построения фрейм-фраз, совокупность которых образует семантическую модель предметной области.

В качестве значения слота может выступать имя другого фрейма, так образуются сети фреймов:

Сеть фреймов

Существует несколько способов получения слотом значений во фрейме-экземпляре:

- по умолчанию от фрейма-образца;

- через наследование свойств от фрейма, указанного в слоте АКО («это»);

- по формуле, указанной в слоте;

- через присоединенную процедуру;

- явно из диалога с пользователем;

- из БД.

Важнейшим свойством теории фреймов является наследование свойств по АКО-связям. Слот АКО указывает на фрейм более высокого уровня иерархии, откуда неявно наследуются, т.е. переносятся, значения аналогичных слотов. В общем случае на наследование свойств ориентируют указатели наследования:

U - уникальный, показывает, что значение не наследуется;

S - показывает, что значение слота наследуется;

R - показывает, что значения слота должны находится в пределах значений, указанных в одноименных слотах родительского фрейма;

O - выполняет одновременно функции U и S (при отсутствии значения наследуется, в противном случае не наследуется).

Тип значения слота показывают указатели типа данных: frame (указатель на фрейм); real; integer; boolean; text; list; table.

Демон - это процедура, автоматически запускаемая при выполнении некоторого условия. Демоны запускаются при обращении к соответствующему слоту. Демон IF-NEEDED запускается, если в момент обращения к слоту его значение не было установлено. Демон IF-ADDED запускается при попытке изменения значения слота. Демон IF-REMOVED запускается при удалении значения слота.

Основным преимуществом фреймов как модели представления знаний является то, что она отражает концептуальную основу организации памяти человека, а также ее гибкость и наглядность [8]. Фреймовый подход реализуется на основе специальных языков представления знаний FRL, KRL, фреймовая «оболочка» Карра.

Семантические сети

Семантика - это наука, устанавливающая отношения между символами и объектами, которые они обозначают, т.е. наука, определяющая смысл знаков.

Семантическая сеть - это ориентированный граф, вершины которого - понятия, а дуги - отношения между ними.

В качестве понятия выступают абстрактные или конкретные объекты, а отношения - это связи типа: «принадлежит», «имеет частью», «это». Можно предложить несколько классификаций семантических сетей, связанных с типами отношений между понятиями. По количеству типов отношений: однородные (с единственным типом отношений); неоднородные (с различными типами отношений). По типам отношений: бинарные, в которых отношения связывают два объекта; N-арные, в которых есть специальные отношения, связывающие более двух понятий.

Характерной особенностью семантических сетей является обязательное наличие трех типов отношений:

- класс - элемент класса (цветок - роза);

- свойство - значение (цвет - красный);

- пример элемента класса (роза - чайная).

Наиболее часто в семантических сетях используются отношения:

- атрибутивные связи - «иметь свойство» (память - объем);

- часть-целое - «имеет частью» (велосипед - руль);

- функциональные связи - «производит», «влияет»;

- количественные - «больше», «меньше», «равно»;

- пространственные - «далеко», «близко», «за», «под», «над»;

- временные - «раньше», «позже», «в течение»;

- логические связи - «и», «или», «не».

Фрагмент семантической сети

Семантическая сеть

Недостатком этой модели является сложность организации вывода на семантической сети. Эта проблема сводится к нетривиальной задаче поиска фрагмента сети, соответствующего некоторой подсети, отражающей поставленный запрос к БЗ.

Для реализации семантических сетей существуют специальные сетевые языки, например NET, SIMER+MIR.

Аналитическая платформа Deductor.

Состав и назначение аналитической платформы Deductor (разработчик - компания BaseGroup Labs ). Deductor состоит из двух компонентов: аналитического приложения Deductor Studio и многомерного хранилища данных Deductor Warehouse .

Архитектура системы Deductor

знание компьютер память фрейм

Deductor Warehouse - многомерное хранилище данных, аккумулирующее всю необходимую для анализа предметной области информацию. Использование единого хранилища позволяет обеспечить непротиворечивость данных, их централизованное хранение и автоматически создает всю необходимую поддержку процесса анализа данных. Deductor Warehouse оптимизирован для решения именно аналитических задач, что положительно сказывается на скорости доступа к данным.

Deductor Studio - это программа, предназначенная для анализа информации из различных источников данных. Она реализует функции импорта, обработки, визуализации и экспорта данных. Deductor Studio может функционировать и без хранилища данных, получая информацию из любых других источников, но наиболее оптимальным является их совместное использование.

Поддержка процесса от разведочного анализа до отображения данных

Deductor Studio позволяет пройти все этапы анализа данных. Схема отображает процесс извлечения знаний из данных.

Процесс извлечения знаний из данных в Deductor Studio

Рассмотрим этот процесс более детально.

На начальном этапе в программу загружаются или импортируются данные из какого-либо произвольного источника. Хранилище данных Deductor Warehouse является одним из источников данных. Поддерживаются также другие, сторонние источники:

· текстовый файл с разделителями;

· Microsoft Excel;

· Microsoft Access;

· Dbase;

· CSV-файлы;

· ADO-источники - позволяют получить информацию из любого ODBC-источника (Oracle, MS SQL, Sybase и прочее).

Обычно в программу загружаются не все данные, а какая-то выборка, необходимая для дальнейшего анализа.

После получения выборки можно получить подробную статистику по ней, посмотреть, как выглядят данные на диаграммах и гистограммах.

После такого разведочного анализа можно принимать решения о необходимости предобработки данных. Например, если статистика показывает, что в выборке есть пустые значения (пропуски данных), можно применить фильтрацию для их устранения.

Предобработанные данные далее подвергаются трансформации. Например, нечисловые данные преобразуются в числовые, что необходимо для некоторых алгоритмов. Непрерывные данные могут быть разбиты на интервалы, то есть производится их дискретизация.

К трансформированным данным применяются методы более глубокого анализа. На этом этапе выявляются скрытые зависимости и закономерности в данных, на основании которых строятся различные модели. Модель представляет собой шаблон, который содержит формализованные знания.

Последний этап - интерпретация - предназначен, чтобы из формализованных знаний получить знания на языке предметной области.

Архитектура Deductor Studio

Вся работа по анализу данных в Deductor Studio базируется на выполнении следующих действий:

· импорт данных;

· обработка данных;

· визуализация;

· экспорт данных.

Схема функционирования Deductor Studio. Отправной точкой для анализа всегда является процедура импорта данных. Полученный набор данных может быть обработан любым из доступных способов.

Схема функционирования Deductor Studio.

Результатом обработки также является набор данных, который, в свою очередь, опять может быть обработан. Импортированный набор данных, а также данные, полученные на каждом этапе обработки, могут быть экспортированы для последующего использования в других, например, в учетных системах. Поддерживаются следующие форматы:

· хранилище данных Deductor Warehouse ;

· Microsoft Excel;

· Microsoft Word;

· HTML;

· XML;

· Dbase;

· буфер обмена Windows;

· текстовой файл с разделителями.

Результаты каждого действия можно отобразить различными способами:

· OLAP-кубы (кросс-таблица, кросс-диаграмма);

· плоская таблица;

· диаграмма, гистограмма;

· статистика;

· анализ по принципу "что-если";

· граф нейросети;

· дерево - иерархическая система правил;

· прочее.

Способ возможных отображений зависит от выбранного метода обработки данных. Например, нейросеть содержит визуализатор "Граф нейросети", специфичный только для нее. Некоторые способы визуализации пригодны почти для всех методов обработки, например, в виде таблицы, диаграммы или гистограммы.

Последовательность действий, которые необходимо провести для анализа данных, называется сценарием.

Сценарий можно автоматически выполнять на любых данных. Типовой сценарий:

Архитектура Deductor Warehouse

Deductor Warehouse - многомерное хранилище данных, аккумулирующее всю необходимую для анализа предметной области информацию. Вся информация в хранилище содержится в структурах типа "звезда", где в центре расположены таблицы фактов, а "лучами" являются измерения.

Пример структуры типа "звезда"

Такая архитектура хранилища наиболее адекватна задачам анализа данных.

Каждая "звезда" называется процессом и описывает определенное действие.

В Deductor Warehouse может одновременно храниться множество процессов, имеющим общие измерения.

Что представляет собой хранилище Deductor Warehouse ? Физически - это реляционная база данных, которая содержит таблицы для хранения информации и таблицы связей, обеспечивающие целостное хранение сведений. Поверх реляционной базы данных реализован специальный слой, который преобразует реляционное представление к многомерному. Многомерное представление используется потому, что оно намного лучше реляционного соответствует идеологии анализа данных. Благодаря этому слою пользователь оперирует многомерными понятиями, такими как "измерение" или "факт", а система автоматически производит все необходимые манипуляции, необходимые для работы с реляционной СУБД.

Deductor Warehouse реализует универсальное многомерное хранение, т.е. может содержать множество процессов с различным количеством измерений и фактов. Настройка процессов, задание измерений, свойств и фактов задается при первой загрузке в хранилище данных. Вся работа с хранилищем осуществляется средствами Deductor Studio.

Описание аналитических алгоритмов

Кроме консолидации данных, работа по созданию законченного аналитического решения содержит несколько этапов.

Очистка данных. На этом этапе проводится редактирование аномалий, заполнение пропусков, сглаживание, очистка от шумов, обнаружение дубликатов и противоречий.

Трансформация данных. Производится замена пустых значений, квантование, табличная замена значений, преобразование к скользящему окну, изменение формата набора данных.

Data Mining. Строятся модели с использованием нейронных сетей, деревьев решений, самоорганизующихся карт, ассоциативных правил.

Интерпретация результатов.

Алгоритмы, используемые в программе, сгруппированные по назначению:

Группа 1. Очистка данных

Редактирование аномалий

Автоматическое редактирование аномальных значений осуществляется с применением методов робастной фильтрации, в основе которых лежит использование робастных статистических оценок, таких, например, как медиана. При этом можно задать эмпирически подобранный критерий того, что считать аномалией. Например, задание в качестве степени подавления аномальных данных значения "слабая" означает наиболее терпимое отношение к величине допустимых выбросов.

Заполнение пропусков

В программе предусмотрено два способа заполнения пропущенных данных.

· Аппроксимация - пропущенные данные восстанавливаются методом аппроксимации.

· Максимальное правдоподобие - алгоритм подставляет наиболее вероятные значения вместо пропущенных данных.

Метод аппроксимации рекомендуется использовать в рядах, где данные упорядочены. В этом методе применяется последовательный рекуррентный фильтр второго порядка (фильтр Калмана). Входные данные последовательно подаются на вход фильтра, и если очередное значение ряда отсутствует, оно заменяется значением, которое экстраполируется фильтром.

Метод максимального правдоподобия рекомендуется применять на неупорядоченных данных. При использовании этого метода строится плотность распределения вероятностей, и отсутствующие данные заменяются значением, соответствующим ее максимуму.

Сглаживание

Для сглаживания рядов данных в программе используются два алгоритма.

Первый способ сглаживания - это низкочастотная фильтрация с использованием быстрого преобразования Фурье. При этом задается верхнее значение полосы пропускаемых частот. При подавлении шумов на основе анализа распределения составляющих Фурье спектра на выход фильтра пропускаются спектральные составляющие, которые превышают некоторый порог, рассчитанный по эмпирическим формулам в соответствии с заданным критерием степени вычитания шума. Чем больше требуется сгладить данные, тем меньше должно быть значение полосы. Однако слишком узкая полоса может привести к потере полезной информации. Следует заметить, что этот алгоритм наиболее эффективен, если анализируемые данные есть сумма полезного сигнала и белого шума.

Второй способ сглаживания - это вейвлет-преобразование. Если выбран данный метод, то необходимо задать глубину разложения и порядок вейвлета. "Масштаб" отсеиваемых деталей зависит от глубины разложения: чем больше эта величина, тем более "крупные" детали в исходных данных будут отброшены. При достаточно больших значениях параметра (порядка 7-9) выполняется не только очистка данных от шума, но и их сглаживание ("обрезаются" резкие выбросы). Использование слишком больших значений глубины разложения может привести к потере полезной информации из-за слишком высокой степени "огрубления" данных. Порядок вейвлета определяет гладкость восстановленного ряда данных: чем меньше значение параметра, тем ярче будут выражены "выбросы", и наоборот - при больших значения параметра "выбросы" будут сглажены.

Очистка от шумов

При выборе режима очистки от шумов необходимо задать степень вычитания шума: малую, среднюю или большую. При использовании вычитания шума следует соблюдать осторожность, т.к. реализованный здесь эвристический алгоритм гарантирует удовлетворительные результаты лишь при выполнении двух условий:

1. дисперсия шума значительно меньше энергии полезного сигнала;

2. шум имеет нормальное распределение.

Обнаружение дубликатов и противоречий

Суть обработки состоит в том, что определяются входные и выходные поля. Алгоритм ищет во всем наборе записи, для которых одинаковым входным полям соответствуют одинаковые (дубликаты) или разные (противоречия) выходные поля. На основании этой информации создаются два дополнительных логических поля - "Дубликат" и "Противоречие", принимающие значения "правда" или "ложь".

Группа 2. Трансформация данных

Анализируемая информация, представленная в виде набора данных, имеет определенный формат. Для анализа различных аспектов информации может потребоваться изменение ее формата, или трансформация. Трансформация данных состоит из трех этапов, выполняемых в строгой последовательности (каждый из которых однако, может быть пропущен).

Квантование значений

При выполнении этой операции осуществляется разбиение диапазона числовых значений на указанное количество интервалов определенным методом и замена каждого обрабатываемого значения на число, связанное с интервалом, к которому оно относится, либо на метку интервала. Интервалы разбиения включают в себя нижнюю границу, но не включают верхнюю, кроме последнего интервала, который включает в себя обе границы. Результатом преобразования может быть: номер интервала (от нуля до значения, на единицу меньшего количества интервалов), значение нижней или верхней границы интервала разбиения, среднее значение интервала разбиения, метка интервала.

Квантование может быть осуществлено интервальным или квантильным методом.

Интервальное квантование подразумевает разбиение диапазона значений на указанное количество значений равной длины. Например, если значения в поле попадают в диапазон от 0 до 10, то при интервальном квантовании на 10 интервалов мы получим отрезки от 0 до 1, от 1 до 2 и т.д. При этом 0 будет относиться к первому интервалу, 1 - ко второму, а 9 и 10 - к десятому.

Квантильное квантование подразумевает разбиение диапазона значений на равновероятные интервалы, то есть на интервалы, содержащие равное (или, по крайней мере, примерно равное) количество значений. Нарушение равенства возможно только тогда, когда значения, попадающие на границу интервала, встречаются в наборе данных несколько раз. В этом случае все они относятся к одному определенному интервалу и могут вызвать "перевес" в его сторону.

Табличная замена значений

В результате выполнения этой операции производится замена значений по таблице подстановки, которая содержит пары, состоящие из исходного и выходного значения. Например, 0 - "красный", 1 - "зеленый", 2 - "синий". Или "зима" - "январь", "весна" - "апрель", "лето" - "июль", "осень" - "октябрь". Для каждого значения исходного набора данных ищется соответствие среди исходных значений таблицы подстановки. Если соответствие найдено, то значение меняется на соответствующее выходное значение из таблицы подстановки. Если значение не найдено в таблице, оно может быть либо заменено значением, указанным для замены "по умолчанию", либо оставлено без изменений (если такое значение не указано).

"Скользящее окно"

При решении некоторых задач, например, при прогнозировании временных рядов с помощью нейросети, требуется подавать на вход анализатора значения несколько смежных отсчетов из исходного набора данных. Такой метод отбора данных называется скользящим окном (окно - поскольку выделяется только некоторый непрерывный участок данных, скользящее - поскольку это окно "перемещается" по всему набору). При этом эффективность реализации заметно повышается, если не выбирать данные каждый раз из нескольких последовательных записей, а последовательно расположить данные, относящиеся к конкретной позиции окна, в одной записи.

Преобразование даты

Разбиение даты необходимо для анализа всевозможных показателей за определенный период (день, неделя, месяц, квартал, год). Суть разбиения заключается в том, что на основе столбца с информацией о дате формируется другой столбец, в котором указывается, к какому заданному интервалу времени принадлежит строка данных. Тип интервала задается аналитиком, исходя из того, что он хочет получить, - данные за год, квартал, месяц, неделю, день или сразу по всем интервалам.

Группировка

Трудно делать какие-либо выводы по данным каждой записи в отдельности. Аналитику для принятия решения часто необходима сводная информация. Совокупные данные намного более информативны, тем более если их можно получить в разных разрезах. В Deductor Studio предусмотрен инструмент, реализующий сбор сводной информации, - "Группировка". Группировка позволяет объединять записи по полям-измерениям, агрегируя данные в полях-фактах для дальнейшего анализа.

Разгруппировка

Группировка используется для объединения фактов по каким-либо измерениям. При этом под объединением понимается применение некоторой функции агрегации. Если в исходном наборе данных присутствовали какие-либо другие измерения, то теряется информация о значениях фактов в разрезе этих измерений. Алгоритм разгруппировки позволяет восстановить эти факты, но их значения восстанавливаются не точно, а пропорционально вкладу в сгруппированные значения.

Комплексная предобработка

Термин "предобработка" можно трактовать шире, а именно, как процесс предварительного экспресс-анализа данных. Например, как оценить, является ли фактор значимым или нет, все ли факторы учтены для объяснения поведения результирующей величины и так далее. Для этих целей используются такие алгоритмы как корреляционный анализ, факторный анализ, метод главных компонент, регрессионный анализ. Подобный анализ в Deductor Studio называется комплексной предобработкой, в рамках которой осуществляется понижение размерности входных данных и/или устранение незначащих факторов.

Понижение размерности пространства факторов

Понижение размерности необходимо в случаях, когда входные факторы коррелированы друг с другом, т.е. взаимозависимы. Имеется возможность пересчитать их в другую систему координат, выделяя при этом главные компоненты. Понижение размерности получается путем отбрасывания компонент, в наименьшей степени объясняющих дисперсию результирующих значений (при этом предполагается, что исходные факторы полностью объясняют дисперсию результирующих факторов).

Требуется указать порог значимости, задающий дисперсию результата. Значение порога значимости может изменяться от 0 до 1.

Устранение незначащих факторов

Устранение незначащих факторов основано на поиске таких значений, которые в наименьшей степени коррелированы (взаимосвязаны) с выходным результатом. Такие факторы могут быть исключены из результирующего набора данных практически без потери полезной информации. Критерием принятия решения об исключении является порог значимости. Если корреляция (степень взаимозависимости) между входным и выходным факторами меньше порога значимости, то соответствующий фактор отбрасывается как незначащий.

Группа 3. Data Mining

Алгоритмы Data Mining в пакете Deductor представлены таким набором:

· нейронные сети;

· линейная регрессия;

· прогнозирование;

· автокорреляция;

· деревья решений;

· самоорганизующиеся карты;

· ассоциативные правила.

Контрольный пример.

Список литературы

1. Гаврилова Т.А., Хорошевский В.Ф. Базы знаний интеллектуальных систем.- СПб.: Питер, 2000.- 384 с.

2. Тельнов Ю.Ф. Интеллектуальные информационные системы в экономике: Учебное пособие. Изд. третье.- М.: СИНТЕГ, 2002.- 316 с.

3. Андрейчиков А.В., Андрейчикова О.Н. Анализ, синтез, планирование решений в экономике. - М.: ФиС, 2000.- 363 с.

4. Андрейчиков А.В., Андрейчикова О.Н., Сергеев С.И. Интел-
лектуальные информационные системы в экономике: Учебное пособие. - Волгоград: ВолгГТУ, 1998.- 144 с.

5. Частиков А.П., Гаврилова Т.А., Белов Д.Л. Разработка экспертных систем. Среда CLIPS. - СПб.: БХВ-Петербург, 2003.- 608 с.

6. Семенов Н.А. Программы регрессионного анализа и прогно-
зирования временных рядов. Пакеты ПАРИС и МАВР.- М.: Финансы и статистика, 1990.- 111 с.

7. Осуга С. Обработка знаний. - М.: Мир,1989. - 293 с.

8. Семенов Н.А., Борисов А.Л., Рожков А.А. Подход к выбору оптимального маршрута при перевозке крупногабаритных грузов на основе нейросетевых технологий. // Программные продукты и системы. - 2004.- №2.

9. Base Group Labs Web: http://www.basegroup.ru

Размещено на Allbest.ru


Подобные документы

  • Синтаксис логики предикатов. Преобразование унарных предикатов в бинарные. Функции, выполняемые экспертной системой. Правила "если-то" для представления знаний. Разработка оболочки в экспертных системах. Рассуждения, использующие логические формулы.

    курс лекций [538,1 K], добавлен 16.06.2012

  • Представление знаний в когнитологии, информатике и искусственном интеллекте. Связи и структуры, язык и нотация. Формальные и неформальные модели представления знаний: в виде правил, с использованием фреймов, семантических сетей и нечетких высказываний.

    контрольная работа [29,9 K], добавлен 18.05.2009

  • Определение понятия знания, модели его представления – фреймовая, продукционная, семантическая. Разбор аналитической платформы Deductor. Описание демо-примера программы Deductor– прогнозирование с помощью линейной регрессии, использование визуализатора.

    курсовая работа [1,1 M], добавлен 07.06.2011

  • Проблема представления знаний. Представление декларативных знаний как данных, наделенных семантикой. Представление процедурных знаний как отношений между элементами модели, в том числе в виде процедур и функций. Представление правил обработки фактов.

    курсовая работа [33,1 K], добавлен 21.07.2012

  • Классы и группы моделей представления знаний. Состав продукционной системы. Классификация моделей представления знаний. Программные средства для реализации семантических сетей. Участок сети причинно-следственных связей. Достоинства продукционной модели.

    презентация [380,4 K], добавлен 14.08.2013

  • Проблема представления знаний в компьютерных системах – одна из основных проблем в области искусственного интеллекта. Исследование различных моделей представления знаний. Определения их понятия. Разработка операции над знаниями в логической модели.

    курсовая работа [51,9 K], добавлен 18.02.2011

  • Обоснование использования виртуальной модели, средства для разработки функциональных модулей. Разработка виртуальной модели "Представление знаний в информационных системах". Разработка алгоритмов построения виртуальной модели предметной области.

    дипломная работа [1,4 M], добавлен 12.08.2017

  • Сущность данных и информации. Особенности представления знаний внутри ИС. Изучение моделей представления знаний: продукционная, логическая, сетевая, формальные грамматики, фреймовые модели, комбинаторные, ленемы. Нейронные сети, генетические алгоритмы.

    реферат [203,3 K], добавлен 19.06.2010

  • Изучение фреймового способа представления знаний, его специфики и основных характеристик. Обзор других методов представления знаний, их плюсы и минусы. Иерархическая структура данных фрейма. Механизм управления выводом с помощью присоединенной процедуры.

    реферат [2,6 M], добавлен 22.12.2014

  • Фреймы как один из распространенных формализмов представления знаний в электронных системах, их классификация и типы, структура и элементы. Иерархические фреймовые структуры и принципы их построения. Код программы Интерфейс. Разработка программного кода.

    лабораторная работа [524,2 K], добавлен 02.11.2013

Работы в архивах красиво оформлены согласно требованиям ВУЗов и содержат рисунки, диаграммы, формулы и т.д.
PPT, PPTX и PDF-файлы представлены только в архивах.
Рекомендуем скачать работу.