Способы и информационные технологии получения знаний
Теоретические аспекты получения знаний. Сравнение активных и пассивных индивидуальных и групповых методик. Простейший алгоритм извлечения информации из текстов. Особенности развития методов и программных средств, призванных упростить этот процесс.
Рубрика | Коммуникации, связь, цифровые приборы и радиоэлектроника |
Вид | курсовая работа |
Язык | русский |
Дата добавления | 18.09.2013 |
Размер файла | 2,7 M |
Отправить свою хорошую работу в базу знаний просто. Используйте форму, расположенную ниже
Студенты, аспиранты, молодые ученые, использующие базу знаний в своей учебе и работе, будут вам очень благодарны.
Размещено на http://www.allbest.ru/
49
Размещено на http://www.allbest.ru/
Введение
Наступивший XXI век станет этапным для проникновения новых информационных технологий и создаваемых на их основе высокопроизводительных компьютерных систем во все сферы человеческой деятельности - управление, производство, науку, образование и т.д. Конструируемые посредством этих технологий интеллектуальные компьютерные системы призваны усилить мыслительные способности человека, помочь ему находить эффективные решения так называемых плохо формализованных и слабоструктурированных задач, характеризующихся наличием различного типа неопределенностей и огромными поисковыми пространствами. Сложность таких задач усиливается зачастую необходимостью их решения в очень ограниченных временных рамках, например, при управлении сложными техническими объектами в аномальных режимах или при оперативном разрешении конфликтных (кризисных) ситуаций. Наибольшей эффективности современные интеллектуальные системы достигают при реализации их как интегрируемых систем, объединяющих различные модели и методы представления и оперирования знаниями, а также механизмы приобретения (извлечения) знаний из различных источников.
Понятие «управление знаниями» родилось в середине 1990-х годов в крупных корпорациях, где проблемы обработки информации приобрели критический характер. Постепенно пришло понимание того, что знания -- это фундаментальный ресурс, базирующийся на практическом опыте специалистов и на данных, существующих на конкретном предприятии.
Тема извлечения знаний привлекает внимание учёных как в Европе, так и во всём мире. Изучением данной темы занимаются У. Файяд, Г. Пятетский-Шапиро, Т. Гаврилова, Л. Григорьев, П. Смит, Дж. Сейферт, В. Фроли, Ц. Матеус, Е. Монк, Б. Вагнер, С.Хааг и др.
Data Mining переводится как «добыча» или «раскопка данных». Нередко рядом с Data Mining встречаются слова «обнаружение знаний в базах данных» (knowledge discovery in databases) и «интеллектуальный анализ данных». Их можно считать синонимами Data Mining. Возникновение всех указанных терминов связано с новым витком в развитии средств и методов обработки данных.
До начала 90-х годов не было особой нужды переосмысливать ситуацию в этой области. Все шло своим чередом в рамках направления, называемого прикладной статистикой. Теоретики проводили конференции и семинары, писали внушительные статьи и монографии, изобиловавшие аналитическими выкладками. Вместе с тем, практики всегда знали, что попытки применить теоретические экзерсисы для решения реальных задач в большинстве случаев оказываются бесплодными. Но на озабоченность практиков до поры до времени можно было не обращать особого внимания - они решали главным образом свои частные проблемы обработки небольших локальных баз данных.
В связи с совершенствованием технологий записи и хранения данных на людей обрушились колоссальные потоки информационной руды в самых различных областях. Деятельность любого предприятия (коммерческого, производственного, медицинского, научного и т.д.) теперь сопровождается регистрацией и записью всех подробностей его деятельности. Что делать с этой информацией? Стало ясно, что без продуктивной переработки потоки сырых данных образуют никому не нужную свалку.
Специфика современных требований к такой переработке следующие:
§ данные имеют неограниченный объем;
§ данные являются разнородными (количественными, качественными, текстовыми);
§ результаты должны быть конкретны и понятны;
§ инструменты для обработки сырых данных должны быть просты в использовании.
Целью работы является изучение различных методов извлечения знаний, теоретические аспекты и проблемы извлечений знаний.
1. Методы извлечения знаний
Многообразие задач, ситуаций и источников знаний обусловило появление большого количества методов извлечения, приобретения и формирования знаний. Одна из возможных классификаций методов извлечения знаний приведена на рисунке 1, на первом уровне выделены два больших класса. Первый класс образуют коммуникативные методы, которые ориентированы на непосредственный контакт инженера по знаниям с экспертом (источником знаний), второй класс -- текстологические методы, основанные на приобретении знаний из документов и специальной литературы.
Рисунок 1 - Классификация методов извлечения знаний
Коммуникативные методы. Они разделяются на пассивные и активные. В пассивных методах ведущую роль играет эксперт, в активных -- инженер по знаниям. При решении конкретных задач, как правило, используются как пассивные, так и активные методы. Активные методы делятся на индивидуальные и групповые. В групповых методах знания получают от множества экспертов, в индивидуальных -- от единственного эксперта. Индивидуальные методы получили более широкое применение на практике по сравнению с групповыми.
Пассивные коммуникативные методы включают наблюдение, анализ протоколов «мыслей вслух», процедуры извлечения знаний из лекций.
Метод наблюдения является одним из наиболее применяемых на начальных этапах разработки экспертных систем. Его суть заключается в фиксировании всех действий эксперта, его реплик и объяснений. При этом аналитик не вмешивается в работу эксперта, а только наблюдает за процессом решения реальных задач либо за решением проблем, имитирующих реальные задачи. Наблюдения за процессом решения реальных задач позволяют инженеру по знаниям глубже понять предметную область. Однако эксперт в этом случае испытывает большое психологическое напряжение, понимая, что осуществляет не только свою профессиональную деятельность, но и демонстрирует ее инженеру по знаниям. Наблюдение за имитацией процесса снимает это напряжение, но приводит к снижению полноты и качества извлекаемых данных. Наблюдения за имитацией незаменимы в тех случаях, когда наблюдения за реальным процессом невозможны из-за специфики изучаемой предметной области,
Метод анализа протоколов «мыслей вслух» отличается от метода наблюдения тем, что эксперт не только комментирует свои действия, но и объясняет цепочку своих рассуждений, приводящих к решению. Основной проблемой, возникающей при использовании этого метода, является принципиальная сложность для любого человека словесного описания собственных мыслей и действий. Повысить полноту и качество извлекаемых знаний можно за счет многократного уточняющего протоколирования рассуждений эксперта.
Метод извлечения знаний из лекций предполагает, что эксперт передает свой опыт инженеру по знаниям в форме лекций. При этом инженер по знаниям может заранее сформулировать темы лекций. Если этого не удается сделать, то когнитолог конспектирует лекции и задает вопросы. Качество информации, предоставленной экспертом в ходе лекции, определяется четкостью сформулированной темы, а также способностями лектора в структурировании и изложении своих знаний и рассуждений.
Сравнительные характеристики пассивных методов извлечения знаний приведены в таблице 1.
Одна из возможных классификаций людей по психологическим характеристикам делит всех на три типа:
· мыслитель (познавательный тип);
· собеседник (эмоционально-коммуникативный тип);
· практик (практический тип).
Мыслители ориентированы на интеллектуальную работу, учебу, теоретические обобщения и обладают свойствами поленезависимости и рефлексивности. Собеседники -- общительные, открытые люди, готовые к сотрудничеству. Практики предпочитают действия разговорам, хорошо реализуют замыслы других.
Таблица 1 - Сравнительные характеристики пассивных методов извлечения знаний
Показатели |
Наблюдения |
«Мысли вслух» |
Лекции |
|
Достоинства |
Отсутствие влияния аналитика и его субъективной позиции. Максимальное приближение аналитика к предметной области. |
Свобода самовыражения для эксперта. Вербализация рассуждений. Отсутствие влияния аналитика и его субъективной позиции. |
Свобода самовыражения для эксперта. Структурированное изложение. Высокая концентрация. Отсутствие влияния аналитика и его субъективной позиции. |
|
Недостатки |
Отсутствие обратной связи. Фрагментарность полученных комментариев. |
Отсутствие обратной связи. Возможность ухода «в сторону» в рассуждениях эксперта. |
«Зашумленность» деталями. Слабая обратная связь. Недостаток хороших лекторов среди экспертов-практиков. |
|
Требования к эксперту (типы и основные качества) |
Собеседник или мыслитель (способность к вербализации мыслей, аналитический склад ума, открытость, рефлексивность). |
Мыслитель (лекторские способности) |
||
Требования к аналитику {типы и основные качества) |
Мыслитель (наблюдательность, поленезависимость) |
Мыслитель или собеседник (поленезависимост, способность к общению) |
Мыслитель (поленезависимость, способность к общению) |
|
Характеристика предметной области |
Слабо- и среднеструктурированные, слабо- и среднедокументированные |
Слабоструктурированны, слабодокументированные |
Предметные области отличаются уровнем документированности и структурированности. Для характеристики предметной области по уровню документированности выделяют три класса: хорошо документированные, среднедокументированные и слабодокументированные области. По степени структурированности знаний предметные области могут быть:
· хорошо структурированными (с четкой аксиоматизацией, широким применением математического аппарата, устоявшейся терминологией);
· среднеструктурированными (с определившейся терминологией, развивающейся теорией, явными взаимосвязями между явлениями);
· слабоструктурированными (с размытыми определениями, богатым эмпирическим материалом, скрытыми взаимосвязями).
Активные индивидуальные методы включают методы анкетирования, интервьюирования, свободного диалога и игры с экспертом. Сравнительный анализ методов данной группы приведен в таблице 2.
Преимуществом методов анкетирования является то, что анкета или вопросник составляются инженером по знаниям заранее и используются для опроса экспертов. Составление анкеты следует проводить с учетом рекомендаций, выработанных в социологии и психологии. Основными требованиями к анкетам являются следующие:
1. Анкета не должна быть монотонной и однообразной, чтобы не вызывать скуку или усталость. Для этого необходимо разнообразить тематику и форму задания вопросов, включить вопросы-шутки и применить стиль игры.
2. Анкета должна быть приспособлена к языку эксперта.
3. Следует учитывать, что вопросы влияют друг на друга, поэтому важно расположить их в правильной последовательности.
4. В анкете должно содержаться оптимальное число избыточных вопросов, часть которых предназначена для контроля правильности ответов, а другая часть -- для снятия напряжения.
Метод интервьюирования отличается от метода анкетирования тем, что позволяет аналитику опускать ряд вопросов в зависимости от ситуации, вставлять новые вопросы в анкету, изменять темы и разнообразить ситуацию общения. Важную роль в методе интервьюирования играют вопросы, классификация которых показана на рисунке 2.
Открытый вопрос называет тему или предмет, оставляя эксперту полную свободу в отношении формы и содержания ответа. Закрытый вопрос предлагает эксперту выбрать ответ из предложенного набора.
Таблица 2 - Сравнение активных индивидуальных методов
Показатели |
Анкетирование |
Интервьюирование |
Свободный диалог |
|
Достоинства |
Возможность стандартизированного опроса нескольких экспертов. Не требует особенного напряжения от аналитика во время процедуры анкетирования. |
Наличие обратной связи (возможность уточнения контекста и разрешения противоречий). |
Гибкость. Обратная связь. Возможность изменения сценария и формы сеанса. |
|
Недостатки |
Требует умения и опыта составления анкет. Отсутствие контекста и обратной связи. Вопросы анкеты могут быть неправильно поняты экспертом. |
Требует значительного времени на подготовку вопросов интервью. |
Требует от аналитика высочайшего напряжения. Отсутствие формальных методик проведения. Трудность протоколирования результатов. |
|
Требования к эксперту |
Практик и мыслитель |
Собеседник и мыслитель |
Собеседник и мыслитель |
|
Требования к аналитику |
Мыслитель (педантизм в составлении анкет, внимательность) |
Собеседник (журналистские навыки, умение слушать) |
Собеседник (наблюдательность, умение слушать, обаяние) |
|
Характеристика предметной области |
Слабоструктурированные, слабо- и среднедокументированные |
Рисунок 2 - Классификация вопросов при интервьюировании
Личный вопрос непосредственно касается личного опыта эксперта. Безличный вопрос направлен на выявление наиболее распространенных закономерностей предметной области.
Прямой вопрос непосредственно указывает на интересующий предмет или тему (используется при «зажатости» эксперта). Косвенный вопрос исподволь затрагивает рассматриваемую проблему.
Вербальный вопрос -- традиционный устный вопрос. Вопрос с использованием наглядного материала позволяет разнообразить интервью и снять усталость эксперта (используются фотографии, рисунки, карточки).
Основной вопрос направлен на выявление знаний. Зондирующий вопрос направляет рассуждения эксперта в нужную сторону. Контрольный вопрос проверяет достоверность и объективность информации, полученной в интервью ранее.
Нейтральный вопрос подчеркивает беспристрастность инженера по знаниям к предмету исследования. Наводящий вопрос ориентирует эксперта принять во внимание позицию инженера по знаниям.
Дополнительно в интервью рекомендуется включать следующие вопросы: контактные (снимающие психологический барьер между аналитиком и экспертом), буферные (разграничивающие отдельные темы интервью), оживляющие память экспертов (реконструирующие отдельные случаи из практики), «провоцирующие» (способствующие получению неподготовленных ответов).
При использовании метода интервьюирования следует иметь в виду, что его эффективность во многом определяется языком вопросов (понятностью, лаконичностью, терминологией); порядком вопросов (логическая последовательность); уместностью вопросов (этичностью и вежливостью).
Прежде чем готовить вопросы, аналитик должен овладеть ключевым набором знаний исследуемой предметной области, поскольку любой вопрос имеет смысл только в контексте.
Метод свободного диалога позволяет извлекать знания в форме беседы с экспертом, поэтому здесь не предусматривается использование жесткого вопросника или плана. В то же время подготовка к свободному диалогу должна проводиться по специальной методике, в которую входит общая, специальная, конкретная и психологическая подготовка. Общая подготовка направлена на повышение научной эрудиции, овладение общей культурой, знакомство с системной методологией. Специальная подготовка сводится к овладению теорией и навыками интервьюирования. Конкретная подготовка предполагает изучение предметной области, подготовку ситуации общения, знакомство с экспертом, тестирование эксперта. Психологическая подготовка включает знакомство с теорией общения и с когнитивной психологией.
Игры с экспертом существенно отличаются от приведенных выше индивидуальных активных методов извлечения знаний и рассматриваются в классе групповых активных методов, где особое место принадлежит ролевым и экспертным методам.
Активные групповые методы включают «мозговой штурм», дискуссии за круглым столом и ролевые игры. Групповые методы позволяют творчески интегрировать знания множества экспертов. Сравнительный анализ методов приведен в таблице 3.
Таблица 3 - Сравнение активных групповых методов извлечения знаний
Показатели |
«Мозговой штурм» |
Дискуссия за круглым столом |
|
Достоинства |
Позволяет выявлять глубинные пласты знаний (на уровне бессознательного). Активизирует экспертов. Позволяет получать новые знания |
Позволяет получать более объективные фрагменты знаний. Оживляет процедуру извлечения знаний. Позволяет участникам обмениваться знаниями. |
|
Недостатки |
Возможен только ДЛЯ новых интересных исследовательских проблем. Не всегда эффективен (довольно низкий процент продуктивных идей) |
Требует больших организационных затрат. Отличается сложностью проведения. |
|
Требования к эксперту |
Мыслитель (способность к творчеству) |
Собеседник или мыслитель (искусство полемики) |
|
Требования к аналитику |
Собеседник или мыслитель (быстрая реакция и чувство юмора) |
Собеседник (дипломатические способности) |
|
Характеристика предметной области |
Слабоструктурированные и слабодокументированные с наличием перспективных «белых пятен» |
Слабоструктурированные и слабодокументированные с наличием спорных проблем |
Метод «мозгового штурма» - один из наиболее известных и широко применяемых методов генерирования новых идей путем творческого сотрудничества группы специалистов. Являясь в некотором смысле единым мозгом, группа пытается штурмом преодолеть трудности, мешающие разрешить рассматриваемую проблему. В процессе такого штурма участники выдвигают и развивают собственные идеи, стимулируя появление новых и комбинируя их. Для обеспечения максимального эффекта «мозговой штурм» должен подчиняться определенным правилам и основываться на строгом разделении во времени процесса выдвижения идей и процесса их обсуждения и оценки. На первой стадии штурма запрещается осуждать выдвинутые идеи и предложения (считается, что критические замечания уводят к частностям, прерывают творческий процесс, мешают выдвижению идей). Роль аналитика состоит в том, чтобы активизировать творческое мышление участников заседания и обеспечить выдвижение возможно большего числа идей.
После выдвижения идей выполняются тщательное их обсуждение, оценка и отбор лучших. На стадии обсуждения участники «мозгового штурма» должны сконцентрироваться на положительных сторонах идей, найти в них рациональные зерна и предложить направления их развития. Выдвигаемые в процессе обсуждения дополнительные идеи могут базироваться на идеях других участников или, наоборот, служить для них фундаментом, катализатором. Значительный эффект дает комбинирование идей при одновременном выявлении преимуществ и недостатков синтезируемых при этом вариантов.
Метод «мозгового штурма» эффективен при решении не слишком сложных задач общего организационного характера, когда проблема хорошо знакома всем участникам заседания и по рассматриваемому вопросу имеется достаточная информация. Существует ряд модификаций этого метода.
Индивидуальный «мозговой штурм» проводится по тем же правилам, что и коллективный, но выполняется одним экспертом, который одновременно генерирует идеи, дает им объективную оценку и критикует их.
Массовый «мозговой штурм» проводится в массовой аудитории (до нескольких десятков человек). Отбор идей проводится на промежуточных этапах. Эксперты группируются по 6-8 человек, при этом важно, чтобы непосредственное отношение к задаче имел лишь руководитель группы, а остальные были лишь знакомы с нею (иначе амбиции могут сыграть негативную роль). Штурм проводится в два этапа. На первом этапе оперативные группы осуществляют прямой коллективный «мозговой штурм».
При этом желательно, чтобы каждая группа работала над задачей, наиболее близкой по тематике к профилю вошедших в нее специалистов. На втором этапе руководители каждой группы в течение нескольких минут оценивают выдвинутые идеи, отбирают из них наиболее интересные и сообщают их на «пленарном заседании».
Двойной «мозговой штурм» органически соединяет в себе процессы генерирования идей и их доброжелательной позитивной критики.
Обратный «мозговой штурм» отличается от прямого тем, что в нем больше внимания уделяется критике высказанных идей.
Метод дискуссии за круглым столом предполагает равноправное обсуждение экспертами поставленной проблемы. Отличительной особенностью метода дискуссии является коллективное рассмотрение предметной области с разных точек зрения и исследование спорных гипотез.
Экспертные игры предназначены для извлечения знаний и базируются на деловых, диагностических и компьютерных играх (таблица 4).
По числу участников игры подразделяют на индивидуальные (игры с экспертом) и групповые (ролевые игры в группе). По применению специального оборудования -- игры с тренажерами и игры без реквизита. Особый класс представляют собой компьютерные игры.
В играх с экспертом инженер по знаниям берет на себя чью-нибудь роль в моделируемой ситуации. Ролевые игры в группе предусматривают участие в игре нескольких специалистов. Участники игры наделяются определенными ролями, а собственно игра проводится по составленному когнитологом сценарию. В целях повышения эффективности ролевых игр в них необходимо вводить элементы состязательности.
Игры с применением тренажеров позволяют зафиксировать трудно уловимые знания, которые возникают в реальных ситуациях и могут быть потеряны при выходе из них.
Компьютерные экспертные игры в настоящее время используются в основном в целях обучения. Они полезны для «разминки» экспертов перед сеансом извлечения знаний.
Таблица 4 - Сравнительные характеристики экспертных игр
Показатели |
Экспертные игры индивидуальные |
групповые |
компьютерные |
|
Достоинства |
Дают возможность сравнительно быстро получить качественную картину принятия решения. Позволяют выяснить, какую информацию и как использует эксперт. |
Реалистично воссоздают атмосферу конкретной задачи. Раскрепощают экспертов. Групповые занятия более объективны. Выявляют логику и аргументацию экспертов. |
Вызывают интерес у эксперта. Привлекают дизайном и динамикой. |
|
Недостатки |
Отсутствие методик и стандартного набора игр. Высокие профессиональные требования к аналитику. |
Требуют от аналитика знания основ игротехники. Сложность создания игр для конкретных предметных областей. |
Сложность и высокая стоимость создания специализированных игр в конкретной предметной области. |
|
Требования к эксперту |
Собеседник или практик (раскованность и актерское мастерство) |
Собеседник или практик (раскованность и актерское мастерство) |
Практик (без психологического барьера к ЭВМ) |
|
Требования к аналитику |
Собеседник (режиссерские способности, умение создавать сценарии, актерское мастерство) |
Собеседник (способность к ведению конферанса, режиссерские способности, актерское мастерство) |
Мыслитель (контакт с программистом) |
|
Характеристика предметной области |
Средне- и слабоструктурированные и слабодокументированные |
Средне- и слабоструктурированные и слабодокументированные |
Средне- и слабоструктурированные и слабодокументированные |
Текстологические методы включают методы извлечения знаний, основанные на изучении текстов учебников, специальной литературы и документов. Текстология -- это наука, целью которой является практическое прочтение текстов, изучение и интерпретация литературных источников, а также рассмотрение семиотических, психолингвистических и других аспектов извлечения знаний из текстов. Схема извлечения знаний из специальных текстов приведена на рисунке 3, где М1 -- смысл, заложенный автором и основанный на его собственной модели мира; М2 -- смысл, который постигает инженер по знаниям; I -- интерпретация текста, изложенного словесно; Т -- словесное изложение знаний; V -- результат вербализации.
Рисунок 3 - Схема извлечения знаний из текста
Научный текст Т, который формируется автором на основе модели M1, включает в себя пять компонентов, погруженных в языковую среду L; , где - первичный материал наблюдений; -- система научных понятий; -- субъективный взгляд автора; -- дополнительная информация, не касающаяся научного знания (общие места); -- заимствования. На процесс понимания (интерпретации) I и на модель М2 влияют следующие компоненты: М2 = , где - экстракт компонентов, почерпнутый из текста Т; -- предварительные знания аналитика о предметной области; -- общенаучная эрудиция инженера по знаниям; -- личный опыт аналитика.
Автор книги, являющийся в данном случае экспертом, на основании собственной модели мира М1 пишет книгу, представляя свои знания в виде текста. Затем инженер по знаниям на основании своей модели знаний М2 и информации, почерпнутой из текста Т, интерпретирует знания эксперта. Схема процесса извлечения знаний из текста показывает, что смысл М1, заложенный автором книги, отличается от смысла М2, который постигает читатель (инженер по знаниям). Эти различия определяются тем, насколько развиты факторы, и у конкретного аналитика (читателя).
Немецкий философ и языковед В. Фон Гумбольдт так охарактеризовал сложную и трудно формализуемую процедуру взаимного понимания людей: «Люди понимают друг друга не потому, что передают собеседнику знаки предметов, и даже не потому, что взаимно настраивают друг друга на точное и полное воспроизведение идентичного понятия, а потому, что взаимно затрагивают друг в друге одно и то же звено цепи чувственных представлений и зачатков внутренних понятий, прикасаются к одним и тем же клавишам инструмента своего духа, благодаря чему у каждого вспыхивают в сознании соответствующие, но не тождественные смыслы».
Особую сложность представляет извлечение знаний из специальной литературы и методик, поскольку в них очень высока степень концентрации специальных знаний.
Простейший алгоритм извлечения знаний из текстов включает следующие шаги:
1. Составить «базовый» список литературы для ознакомления с предметной областью.
2. Выбрать текст для извлечения знаний.
3. Беглое знакомство с текстом. Провести консультации со специалистами для определения значений незнакомых слов.
4. Сформировать первую гипотезу о макроструктуре текста.
5. Внимательно прочитать текст и выписать ключевые слова и выражения, определив тем самым «смысловые вехи».
6. Определить связи между ключевыми словами, разработать макроструктуры текста в форме графа или реферата.
7. Сформировать новое представление знаний на основании макроструктуры текста.
2. Работа с экспертами и проблема извлечения знаний
Интеллектуальные системы создаются совместно со специалистами, которые передают свои знания о процессах и объектах, поясняют схему рассуждений по выбору решений конкретных задач, приводят неформализуемые факторы, которые необходимо учитывать. Процесс работы с экспертами или специалистом состоит в извлечении знаний или, более корректно, приобретении знаний. Процесс этот сложный, трудоемкий, содержит факторы технического, психологического, производственного и социального характера. Большую роль в данном процессе играет инженер знаний. В течение долгого времени он работает совместно с экспертом, определяя задачи, выявляя наиболее важные понятия, определяя и формулируя правила отношений между понятиями. Инженер знаний должен хорошо знать предметную область, владеть методами формализации и представления знаний, другим инструментарием искусственного интеллекта, быть психологом, быстро ориентироваться в различных ситуациях.
Эксперт должен желать и быть в состоянии помочь в изучении предметной области. Он должен осознавать, что интеллектуальные системы призваны помочь им в практической деятельности, а не вытеснять их.
Инженеру знаний обычно приходится работать с плохо определенными задачами, в которых отсутствует детерминированная внутренняя структура. В своей практической деятельности эксперты при решении этих задач используют эвристики - эмпирические правила, применяемые в случаях, когда условия оперативности решения задачи или недостаточное понимание существа проблемы делают невозможным анализ всех параметров задачи. Поэтому в интеллектуальных системах для решения задач стремятся заложить эвристические процедуры.
Трудным моментом в работе инженера знаний является оказание помощи эксперту при попытках структурировать предметные знания, определить и формализовать предметные концепции.
Работа, связанная с получением знаний, имеющихся у конкретного лица, т.е. извлечение знаний, в инженерии знаний имеет немаловажное значение. Необходимостью извлечения знаний специалиста разработчиком интеллектуальной системы нельзя пренебрегать не только из-за того, что полностью автоматизировать этот процесс необычайно сложно, но из теоретических соображений.
В чем особенность извлечения знаний для интеллектуальных и экспертных систем? Ответ можно получить, ответив на другой вопрос: «Откуда, что и как извлекать?».
Откуда извлекать знания? Как отмечалось выше, источниками знаний для интеллектуальных и экспертных систем могут быть учебники, справочники, материалы конкретных исследований в проблемной области, экономическая информация и т.п.
Тем не менее, классический источник знаний - это эксперт в данной области, знания которого получает разработчик систем, выступающий в роли инженера знаний.
Кто же такой эксперт? Это либо специалист высокой квалификации в отличие от обычного исполнителя, либо человек с опытом в отличие от новичка.
Изучение общих особенностей эксперта - это не только одна из возможных целей, к которой следует стремиться в человеко-машинных системах, состоящих из интеллектуальной системы (или ЭС) и пользователя, это важно для того, чтобы заранее знать особенности партнера, от которого мы будем получать знания.
Известно, что чем выше способности эксперта в проблемной области, тем более он не способен к описанию знаний, используемых им для решения задачи. Уотермен назвал это парадоксом инженерии знаний. Если спросить у эксперта, что он конкретно делает, решая задачу, то он объяснит наиболее правдоподобный, по его мнению, но совершенно отличный от реального процесс рассуждений, поэтому здесь нужно быть осторожным.
Существует мнение, что знания эксперта систематизируются вместе с внешней моделью задачи и мгновенно выбираются из памяти в ответ на каждую конкретную ситуацию и лишь в ситуации, с которой эксперт сталкивается впервые, порядок их выборки будет определяться сознательно но наиболее общим закономерностям.
Какие знания извлекать (что извлекать?). Если функции системы уже определены, то естественно, самое важное - получить правила выводов, которые необходимы для реализации этих функций.
Прежде всего, это базовая структура. Важно перечислить объекты, понятия и атрибуты, которые формируют базовую структуру проблемной области, и знать свойства области. Связь между объектами, понятиями и атрибутами организуется через правила вывода.
Далее, критерии разумности, т.е. почему эксперт решает некоторую проблему именно данным способом? Может быть, этот способ имеет высокую эвристическую ценность, а может, подготовлен на случай неудачи? Какая этому способу нужна поддержка?
Средства, используемые экспертом, например модели принятия решений, используемые им при принятии решений.
Как извлекать знания? В таблице 5 приведены основные методы извлечения знаний из предметного эксперта и их описание.
Таблица 5 - Методы извлечения знаний
Методы извлечения знаний из предметного эксперта |
Описание |
|
Наблюдение на рабочем месте |
Наблюдать за экспертом, решающим реальные задачи на своем рабочем месте. |
|
Обсуждение задач |
Выявить виды данных, знаний и процедур, необходимых для решения конкретных задач. |
|
Описание задач |
Попросить эксперта описать прототипную задачу для каждой категории возможных ответов. |
|
Анализ задачи |
Представить эксперту ряд реалистических задач для решения вслух с целью выявить логические основания конкретных шагов рассуждения. |
|
Доводка системы |
Попросить эксперта предоставить вам несколько задач для решения и с использованием правил, выявленных во время интервью. |
|
Оценивание системы |
Попросить эксперта проверить работу системы и подвергнуть критике правила и структуру управления прототипной системой. |
|
Проверка системы |
Предоставить примеры, решенные экспертом и прототипом системы, другим независимым экспертам для сравнения и оценки. |
Технику извлечения знаний можно разделить на шесть основных классов: опрос с наводящими вопросами, структурированный опрос, самонаблюдение, самоотчет, диалог, критический обзор. Каждый класс, в свою очередь, состоит из нескольких технических методов. Подробную информацию мы рассматривать не будем, укажем только, что цель извлечения знаний может быть достигнута различными способами в зависимости оттого, как эти знания будут анализироваться.
Эксперт, способный работать с вычислительной техникой, может также взаимодействовать с интеллектуальной системой непосредственно через редактирующую программу. Эта программа должна обладать развитым диалоговым интерфейсом и знаниями о структуре БЗ. Однако возникает проблема эффективности взаимодействия эксперта с программой.
Еще одним способом приобретения знаний системой является автоматизация извлечения знаний и запись их в БЗ. Неавтоматизированный сбор знаний специалистов -- трудоемкий процесс. В связи с этим в развитых интеллектуальных системах предусматриваются вспомогательные средства для приобретения знаний.
Интернет или Интранет также могут использоваться для облегчения процесса извлечения знаний. Электронное интервьюирование может проводиться, если инженер знаний и эксперты находятся в различных местах. Также, эксперты могут утверждать и сопровождать базы знаний на расстоянии. Посредством Интернет могут быть достигнуты документированные знания. Проблемой является идентификация знаний: задача, которая может быть облечена интеллектуальными агентами.
Актуальной является также задача автоматической структуризации неформальных знаний, доступных в Интернет через распределенную гипермедиа систему - Web. Технология гипермедиа через Web обеспечивает идеальный подход для развития систем, основанных на знаниях путем расширения возможностей каналов человеко-машинного взаимодействия. Этот новый подход к интеграции технологии гипермедиа с извлечением знаний имеет дело со знаниями до того, как они будут формализованы.
Многие Web-механизмы поиска включают интеллектуальных агентов для идентификации и поставки требуемой информации по индивидуальным потребностям и запросам.
Причина экспоненциального роста количества информации, обеспечиваемого через Web-механизмы, вызывает развитие методов структуризации информации в распределенных гипермедиа системах.
Такая интеграция между технологией гипермедиа и методами извлечения знаний может обеспечить мощный инструмент для извлечения знаний.
3. Автоматизация извлечения знаний и формирования модели
Практический опыт решения задачи приобретения знаний привел к развитию методов и программных средств, призванных упростить процесс приобретения знаний. Эти средства и методы для приобретения знаний могут быть разделены на три категории: редакторы и интерфейсы для формирования баз знаний, средства для объяснения различных аспектов работы, средства для модификации баз знаний.
Рассмотрим процесс автоматизации извлечения знаний, формирования модели и заполнения БЗ в интеллектуальной системе прогнозирования для решения задач оперативного планирования и диспетчерского управления многостадийной системы дискретного производства.
Краткая характеристика проблемной области.
Многостадийная производственная система состоит из подсистемы механической обработки деталей, сборки агрегатов и окончательной сборки готового изделия.
Подсистема механической обработки представляет собой производственную линию, построенную как поточная. Каждому центру обработки такой линии предоставляются станки с одними и теми же рабочими характеристиками. Работа подсистемы организуется таким образом, что сначала производятся установка и настройка, а затем детали подвергаются механической обработке,
В подсистеме сборки полуфабрикаты не могут храниться на линии сборки, а некоторые виды деталей собираются с помощью операций установки.
Составление оперативного плана, эффективно координирующего работу подсистем многостадийной производственной системы, связано с рядом проблем;
1. Проблема распределения: какие типы деталей или изделий будут назначены для обработки на каждой производственной линии, если каждая подсистема состоит из одной или более линий?
2. Проблема принятия решений относительно размера партии: какое следует принять решение относительно размера партии изделий, для которой составляется план?
3. Проблема диспетчеризации: в какой последовательности следует обрабатывать изделия на каждой производственной линии; возможность возникновения непредвиденных и аварийных ситуаций, и т. д.
Целевыми показателями данной многостадийной производственной системы являются: загрузка каждой линии; уровень запасов, имеющийся между подсистемами; среднее запаздывание в выполнении заказов; общие издержки производства, включающие в себя эксплуатационные расходы, издержки на наладочные работы, текущие издержки на поддержание запасов и убытки, связанные с просрочкой заказов.
Решение в системе принимает управленческий персонал, связанный с разными сторонами производственного цикла.
Характеристика интеллектуальной системы прогнозирования.
Эта система предназначена для прогнозирования ситуаций и их развития, объяснения и обоснования прогноза, а также выдачи рекомендации по устранению возникающих «узких мест» и нежелательных ситуаций при решении задач диспетчеризации и оперативного планирования производства.
В системе знания экспертов о производственном процессе представлены в виде правил «Если ...Тогда ...» . При решении задачи система имитирует рассуждения человека-эксперта. Знания эксперта о процессе и его основных закономерностях расположены в двух БЗ, в которых сосредоточены как знания, связанные с прогнозированием развития ситуаций на производстве, так и рекомендации по устранению «узких мест».
Концептуальная модель (КМ) производства.
Модель является базисом для построения прогнозирующей модели. В состав ее входит: совокупность эвристических правил на множестве факторов, оказывающих непосредственное или опосредованное влияние как на условия протекания процесса, так и на сам процесс. Факторы условно делятся на описатели и действия. Описателями названа группа факторов, характеризующих различные аспекты процесса. Действиями названы факторы, способные изменить состояние процесса. Однако следует отметить, что существует целый ряд факторов, однозначно не классифицируемых.
Каждое правило в общем случае представляет совой эвристическую зависимость следующего вида:
Если <фактор-1> = <значение-1> И <фактор-2> = <значение-2> И..
Тогда <фактор - следствие) = (увеличивается/уменьшается)
ДОСТОВЕРНОСТЬ (число из диапазона 0...100>
Каждому такому правилу приписывается некоторый вес (число в диапазоне 0... 100), означающий степень уверенности экспертов в реальном существовании и действенности данного правила. Конкретные веса всех правил в модели определяются методом опроса экспертов и уточняются в процессе отладки модели и эксплуатации системы.
Последними из рассматриваемых компонентов КМ производства являются показатели стабильности факторов-описателей, измеряемые числом из диапазона 0 ... 100 и показывающие, какой процент от начального уровня будет составлять уровень данного фактора в конце периода прогнозирования при отсутствии всех влияющих воздействий. Так, значение стабильности 80% означает, что уровень данного фактора к концу прогнозируемого периода будет составлять 80% уровня в начале периода при отсутствии всех влияющих воздействий.
Для формализации знаний о процессе за основу взята модель, описанная выше. Все правила делятся на два типа: повышающие и понижающие уровень фактора-следствия. Если правила сгруппировать по факторам-следствиям, то получим пакеты правил, являющиеся подмоделями исходной модели и описывающие динамику одного конкретного фактора в зависимости от других факторов. Примером пакета правил может служить совокупность правил, влияющих на ритмичность работы подсистемы сборки агрегатов.
Для выполнения операций увеличения и уменьшения необходимо каждому фактору поставить в соответствие непрерывное или дискретное множество значений. В системе в качестве метрики для всех факторов выбран непрерывный интервал 0 ... 100. Такое шкалирование легко воспринимается экспертами как естественная (процентная) шкала. Однако экспертам-авторам знаний и экспертам-пользователям (поставщикам исходной информации) зачастую бывает удобно пользоваться лингвистическими значениями типа «мало», «много», «около...» и т. д. Для манипулирования подобными значениями предложено строить функции принадлежности на том же универсальном множестве [0, 100].
При прогнозировании развития ситуации по одному из факторов (т. е. при учете одного пакета правил), как уже было сказано выше, существуют причины, повышающие уровень данного фактора, и причины, понижающие его уровень. В связи с этим в системе использован механизм порождения гипотез двух типов: гипотезы о повышении уровня данного фактора и гипотезы о понижении его уровня. Каждая гипотеза во время своего возникновения (при условии наличия причин, порождающих эту гипотезу) имеет степень своей истинности, зависящую от степени выполнения порождающих причин, т. е. степени «срабатывания» данных правил. Значения истинности вырабатываются на непрерывной шкале [0, 1]; 0 - абсолютно ложно, 1 - абсолютно истинно.
Например, существует правило, что выход из строя линии механической обработки (без наличия резервных мощностей) уменьшает выход собранных агрегатов в подсистеме сборки агрегатов, причем достоверность этого правила равна 60%. Пусть далее в качестве исходной информации задано, что уровень выхода из строя одной из линий механической обработки равен 70. Тогда будет порождена гипотеза об увеличении уровня ситуации, связанной с уменьшением выхода собранных агрегатов со степенью истинности 60*70/100 (%)=42%=0,42.
Для вычисления итогового прогнозируемого уровня в системе используются две формулы учета гипотез. Первая формула эквивалентна формуле условной вероятности Шортлиффа, с ее помощью осуществляется пересчет итогового прогнозируемого уровня для гипотез, повышающих уровень данного фактора:
С=С0+е*(100-С0) (1)
Здесь Со -- текущий уровень (из интервала [0, 100]); е -- степень истинности очередной гипотезы (из интервала [0, 1]); С -- результирующий уровень (из интервала [0, 100]).
Аналогично для гипотез, понижающих уровень данного фактора, используется формула
С=С0*(1-е) (2)
Как видно из приведенных выше формул, они не взаимно симметричны в том смысле, что в зависимости от порядка, в котором эти две формулы применяются, результат будет различным. Для учета этой асимметрии все связи из пакета правил, повышающие уровень данного фактора, «активизируются» раньше связей, понижающих его уровень. Таким образом, в начале порождаются все гипотезы о повышении (и действует формула (1)), затем -- все гипотезы о понижении (и действует формула (2)).
Итак, каждый пакет правил имеет четыре компонента: 1) правило, отражающее самодинамику фактора-следствия (стабильность); 2) группу правил, порождающих гипотезы об увеличении уровня фактора-следствия; 3) группу правил, порождающих гипотезы об уменьшении уровня фактора-следствия; 4) два правила, содержащих формулы учета гипотез (1) и (2).
Как известно, в экспертных системах знания, описывающие предметную область, как правило, вынесены за пределы основного программного текста и составляют качественно самостоятельный элемент - базу знаний. Если содержимое БЗ поддается единообразной структуризации и может быть унифицировано, то появляется возможность автоматизировать процесс извлечения знаний и формирования модели, что очень важно при БЗ с большим числом правил.
Так как все правила описанной модели имеют неизменную и переменную части, задача автоматизации заключается в том, чтобы избавить пользователя от избыточного ввода повторяющихся частей, исключить ошибки и упростить процесс ввода переменных частей правил.
Специальная программа с помощью запросов позволяет вводить переменные части правил. Чтобы процесс ответа на запросы не был трудоемким и во избежание ошибок при вводе компонентов, имеющих фиксированный список значений, на экране высвечивается набор возможных ответов («меню»). При этом пользователь имеет возможность посредством клавиш управления курсором выбрать из них нужный и нажатием клавиши «ВВОД» подтвердить его. При запросах, на которые требуется ответ в цифрах, программа проверяет значение по граничным условиям и предупреждает ошибки звуковым сигналом. На верхней строке экрана всегда высвечивается полное название рассматриваемого фактора, для которого генерируется пакет правил. Следует отметить, что для удобства все факторы пронумерованы числами натурального ряда.
4. Теоретические аспекты получения знаний
Существует несколько стратегий получения знаний. Наиболее распространенные:
• приобретение;
• извлечение;
• формирование.
Под приобретением знаний понимается способ автоматизированного построения базы знаний посредством диалога эксперта и специальной программы (при этом структура знаний заранее закладывается в программу). Эта стратегия требует существенной предварительной проработки предметной области. Системы приобретения знаний действительно приобретают готовые фрагменты знаний в соответствии со структурами, заложенными разработчиками систем. Большинство этих инструментальных средств специально ориентировано на конкретные экспертные системы с жестко обозначенной предметной областью и моделью представления знаний, т.е. не являются универсальными. Например, система TEIRESIAS, ставшая прародительницей всех инструментариев для приобретения знаний, предназначена для пополнения базы знаний системы MYCIN или ее дочерних ветвей, построенных на "оболочке" EMYCIN в области медицинской диагностики с использованием продукционной модели представления знаний.
Термин извлечение знаний касается непосредственного живого контакта инженера по знаниям и источника знаний. Авторы склонны использовать этот термин как более емкий и более точно выражающий смысл процедуры переноса компетентности эксперта через инженера по знаниям в базу знаний экспертной системы.
Термин формирование знаний традиционно закрепился за чрезвычайно перспективной и активно развивающейся областью инженерии знаний, которая занимается разработкой моделей, методов и алгоритмов анализа данных для получения знаний и обучения. Эта область включает индуктивные модели формирования гипотез на основе обучающих выборок, обучение по аналогии и другие методы.
Таким образом, можно выделить три стратегии проведения стадии получения знаний при разработке экспертных систем (рисунок 4).
На современном этапе разработки экспертных систем в нашей стране стратегия извлечения знаний, по-видимому, является наиболее актуальной, поскольку промышленных систем приобретения и формирования знаний на отечественном рынке программных средств практически нет.
Извлечение знаний - то процедура взаимодействия эксперта с источником знаний, в результате которой становятся явными процесс рассуждений специалистов при принятии решения и структура их представлений о предметной области.
Рисунок 4 - Три стратегии получения знаний
В настоящее время большинство разработчиков экспертных систем отмечают, что процесс извлечения знаний остается самым "узким" местом при построении промышленных систем.
Процесс извлечения знаний - это длительная и трудоемкая процедура, в которой инженеру по знаниям, вооруженному специальными знаниями по когнитивной психологии, системному анализу, математической логике и пр., необходимо воссоздать модель предметной области, которой пользуются эксперты для принятия решения. Часто начинающие разработчики экспертных систем, желая избежать этой мучительной процедуры, задают вопрос: может ли эксперт сам извлечь из себя знания? По многим причинам это нежелательно.
Во-первых, большая часть знаний эксперта - это результат многочисленных наслоений, ступеней опыта. И часто зная, что из А следует В, эксперт не дает себе отчета, что цепочка его рассуждении была гораздо длиннее, например С ?>D, D ?> А, А ?> В, или А ?> Q,,= Q->R,=R->B.
Во-вторых, как было известно еще древним (вспомним "Диалоги" Платона), мышление диалогично. И поэтому диалог инженера по знаниям и эксперта - наиболее естественная форма "раскручивания" лабиринтов памяти эксперта, в которых хранятся знания, частью носящие невербальный характер, т.е. выраженные не в форме слов, в форме наглядных образов, например. Именно в процессе объяснения инженеру по знаниям эксперт на эти размытые ассоциативные образы надевает четкие словесные ярлыки, т.е. вербализует знания.
В-третьих, эксперту гораздо труднее создать модель предметной области вследствие той глубины и необозримости информации, которой он обладает. Многочисленные причинно-следственные связи реальной предметной области образуют сложную систему, из которой выделить "скелет", или главную структуру, иногда доступнее аналитику, владеющему к тому же системной методологией. Любая модель - это упрощение, а упрощать легче с меньшим знанием деталей.
Чтобы разобраться в природе извлечения знаний, выделим три основных аспекта этой процедуры (рисунок 5): психологический, лингвистический, гносеологический.
Рисунок 5 - Основные аспекты извлечения знаний
4.1 Психологический аспект
Из трех выделенных аспектов извлечения знаний психологический является, по-видимому, главным, поскольку он определяет успешность и эффективность взаимодействия инженера по знаниям (аналитика) с основным источником знаний - экспертом - профессионалом. Мы выделяем психологический аспект еще и потому, что извлечение знаний происходит чаше всего в процессе непосредственного общения разработчиков системы.
Стремление и умение общаться могут характеризовать степень профессионализма инженера по знаниям.
Известно, что потери информации при разговорном общении велики (рисунок 6). В связи с этим рассмотрим проблему увеличения информативности общения аналитика и эксперта за счет использования психологических знаний.
Инженер по знаниям Эксперт
Рисунок 6 - Потери информации при общении
Рисунок 7 - Структура психологического аспекта извлечения знаний
Мы можем предложить такую структурную модель общения при извлечении знаний:
• участники общения (партнеры);
• средства общения (процедура);
• предмет общения (знания).
В соответствии с этой структурой выделим три "слоя" психологических проблем, возникающих при извлечении знаний (рисунок 7), и последовательно рассмотрим их.
Контактный слой
Практически все психологи отмечают, что на любой коллективный процесс влияет атмосфера, возникающая в группе участников. Существуют эксперименты, результаты которых неоспоримо говорят, что дружеская атмосфера в коллективе больше влияет на результат, чем индивидуальные способности отдельных членов группы. Особенно важно, чтобы в коллективе разработчиков складывались кооперативные, а не конкурентные отношения. Для кооперации характерна атмосфера сотрудничества, взаимопомощи, заинтересованности в успехах друг друга, т.е. уровень нравственного общения, а для отношений конкурентного типа - атмосфера индивидуализма и межличностного соперничества (более низкий уровень общения).
К сожалению, прогнозировать совместимость в общении со 100%-ной гарантией невозможно. Однако можно выделить ряд черт личности, характера и других особенностей участников общения, несомненно, оказывающих влияние на эффективность процедуры. Знание этих психологических закономерностей составляет часть багажа психологической культуры, которым должен обладать инженер по знаниям для успешного проведения стадии извлечения знаний:
Подобные документы
Технологический процесс гибридных микросхем. Процессы формирования на подложках пассивных пленочных элементов и проводников соединений. Контроль пассивных элементов на подложках. Технология получения ситалла. Резка слитков и ломка пластин на платы.
курсовая работа [871,3 K], добавлен 03.12.2010Информационные технологии. Основные понятия и определения. Человек и информационное общество. Информационные технологии XXI века: на пороге революции. Новые информационные технологии. Выдвижение информации на лидирующее место в жизни человека.
реферат [38,0 K], добавлен 08.09.2008Физика нанопроводов, их классификация и способы получения. Примеры получения нонопроводов из конкретных материалов. Нанопровода из оксида марганца в качестве электродов аккумуляторной батареи. Особенности применения нанопроводов из оксида титана.
реферат [2,9 M], добавлен 19.01.2015Информационные процессы, их роль в жизни общества. Сбор, извлечение и передача хранимой информации. Канал связи, кодирующее и декодирующее устройство. Виды информации и их кодирование. Понятие системы счисления. Роль средств массовой информации.
курсовая работа [305,4 K], добавлен 21.02.2009Информационные технологии и системы в интермодальных и мультимодальных перевозках. Спутниковая система контроля процесса перевозок. Информационные технологии и перевалка контейнеров. Штрих-кодирование как графическое представление некоторой информации.
реферат [813,6 K], добавлен 24.02.2011Общие принципы построения государственной системы приборов. Исследования и оценка задач автоматизации в различных отраслях промышленности. Устройства получения информации о состоянии управляемых процессов. Основные достоинства дифференциальных датчиков.
презентация [428,7 K], добавлен 14.10.2013Главные этапы исторического развития современной радиоэлектроники. Широкое применение электронной вычислительной техники. Интеграция активных и пассивных элементов систем и устройств радиоэлектроники. Примечательные свойства радиоэлектронных средств.
реферат [30,5 K], добавлен 14.02.2016Принципы обеспечения безопасности частной информации на мобильных устройствах. Анализ существующих программных средств, предназначенных для обмена частной информацией. Разработка программного средства, построенного на отечественных алгоритмах шифрования.
курсовая работа [1,0 M], добавлен 22.09.2016Понятие и классификация фильтров, их разновидности по типу частотных характеристик, этапы их проектирования. Расчет и реализация пассивных LC-фильтров. Преобразование ФНЧ в ФВЧ. Исследование влияния на АЧХ и ФЧХ при изменении сопротивления нагрузки.
курсовая работа [777,3 K], добавлен 22.12.2013Проектирование структуры системы управления электроприводом лифта. Анализ измерительных средств и методов получения информации от объекта. Выбор количества и типов входных и выходных информационных каналов. Разработка структуры информационного канала.
курсовая работа [2,4 M], добавлен 28.09.2010