Корпоративная информационная система

Проектирование архитектуры корпоративной информационной системы (КИС), учитывающей применение методов извлечения смыслового и структурного содержания электронного документа. Понятие и сущность электронного документа. Оценка эффективности архитектуры КИС.

Рубрика Программирование, компьютеры и кибернетика
Вид дипломная работа
Язык русский
Дата добавления 11.07.2016
Размер файла 3,9 M

Отправить свою хорошую работу в базу знаний просто. Используйте форму, расположенную ниже

Студенты, аспиранты, молодые ученые, использующие базу знаний в своей учебе и работе, будут вам очень благодарны.

Рассмотрим каждый стандарт более подробно.

1) ГОСТ Р ИСО 15489-1 - 2007 «Система стандартов по информации, библиотечному и издательскому делу. Управление документами. Общие требования» [16] идентичен международному стандарту ISO 15489_1:2001 (Information and documentation. Records management. General). Данный стандарт устанавливает требования, предъявляемые к документам, создаваемым в процессе осуществления деловой деятельности: аутентичность (подлинность), достоверность, целостность (неизменность), пригодность для использования.

Стандарт ГОСТ Р ИСО 15489-1 - 2007 является высокоуровневым нормативным документов, в котором отражены основные принципы современного управления документами. С практической точки зрения стандарт может быть полезен для того, чтобы обозначить для начальства и сотрудников подразделений важность управления документами в деловой деятельности. К тому же, с точки зрения ЖЦ ЭД, стандарт устанавливает требования ко всем этапам ЖЦ.

Кроме того, следует обратить внимание на такие характеристики, которые устанавливают требования к проектированию систем управления документами, в соответствии с которыми система должна обладать функциональными характеристиками, позволяющими выполнять и поддерживать различные процессы документооборота.

2) ГОСТ Р ИСО 23081-1 - 2008 «Система стандартов по информации, библиотечному и издательскому делу. Управление документами. Процессы управления документами. Метаданные для документов» [13] идентичен международному стандарту ISO 23081 (Metadata for records).

В стандарте подчеркивается значимость метаданных об управлении документами в различных процессах деловой деятельности и различных ролей и типов метаданных, а также объясняются принципы и структуру, лежащие в основе управления ими.

3) ISO 15836:2003 (The Dublin Core metadata element set) [34] - «Набор элементов метаданных “Дублинского ядра”» представляет собой универсальный набор метаданных, содержащихся в Дублинском ядре. Указания по применения Дублинского ядра содержатся во многих государственных стандартах метаданных, основанных на данном стандарте.

4) ISO/TR 15801:2004 (Information Stored electronically - Recommendations for trustworthiness and reliability) [23] - «Информация, хранимая в электронном виде - Рекомендации по обеспечению достоверности и надежности» является международным стандартом. Стандарт регламентирует внедрение и эксплуатацию систем управления информацией, которые хранят информацию в электронном виде и для которых важны достоверность, надежность, аутентичность и целостность информации. Стандарт охватывает не полный ЖЦ ЭД, затрагивая только этапы ввода, использования и управления документами.

5) ISO/TR 18492:2005 (Long-term preservation of electronic document-based information) [25] - «Обеспечение долговременной сохранности электронной документированной информации» является техническим отчетом и первым международным руководством по решению проблемы обеспечения долговременной сохранности электронных документов.

В отчете предлагается концепция разработки стратегий обеспечения долговременной сохранности, а также описываются зарекомендовавшие себя приемы практической работы, которые можно применять в организациях для обеспечения долговременной доступности и аутентичности электронных документов.

6) ISO/TR 12037:1998 (Recommendations for the expungement of information recorded on write-once optical media) [28] - «Рекомендации по удалению информации, записанной на оптических носителях однократной записи». В данном стандарте рассматривается достаточно узкая проблема частичного уничтожения информации на носителе однократной записи.

7) ISO 12142:2001 (Media error monitoring and reporting techniques for verification of stored data on optical digital data disks) [26] - «Мониторинг ошибок при передаче и методики отчетности для верификации сохраненных данных на оптических цифровых дисках» концентрируется на узкой проблеме передачи данных для сохранности.

8) ISO 19005-1:2005 (Electronic document file format for long-term preservation - Part 1: Use of PDF 1.4 (PDF/A-1)) [23] - «Файловый формат для долговременного хранения электронных документов - Часть 1: Использование формата PDF 1.4 (PDF/A-1)». Данный международный стандарт разработан для описания принципов и методов использования формата PDF для долговременного хранения документа, как в организациях, так и в архивах.

Значение стандарта заключается в том, что коммерческие и государственные организации, библиотеки, архивы, другие учреждения во всем мире используют формат PDF для представления важной информации в неизменном виде. Большая часть такой информации должна храниться длительное время, некоторая доля информации должна храниться постоянно. Цели, которые реализует стандарт:

- определение формата файла, основанного на PDF, который обеспечит механизм для представления электронных документов таким способом, который позволит сохранить их визуальное изображение с течением времени;

- определение формы для представления логической структуры истории электронных документов в метаданные в рамках соответствующих файлов;

- обеспечение структуры для документирования контекста и другой семантической информации об электронных документах в пределах формата.

9) XKMS (XML Key Management Specification) [37] - «Спецификация управления ключами XML» является набором протоколов, разработанный W3C, который описывает распространение и регистрацию открытых ключей, применимый для использования совместно со стандартом XML, определенным W3C и IETF.

Данный стандарт подходит, например, для того, чтобы СЭД имела разработанный на основе стандартов интерфейс, позволяющий подключать новые технологии электронных подписей по мере их появления.

10) MoReq2 (Model Requirements for the Management of Electronic Records) [27] - общеевропейская функциональная спецификация по управлению электронными документами, описывающая функциональные возможности систем управления документами и являющаяся инструментом тестирования систем на соответствие требованиям.

Требования, обозначенные в данном стандарте охватывают все этапы ЖЦ ЭД, и изложены таким образом, что они одинаково и однозначно понятны сотрудникам-документоведам и ИТ-специалистам, в связи, с чем стандарт MoReq2 завоевал популярность в качестве «протокола обмена» между пользователями и разработчиками.

Особенности спецификации MoReq2:

- унификация со стандартом ISO 15489 терминология в области ЭД;

- учет ряда национальных стандартов таких стран, как: Великобритания, Германия, Норвегия, США и др.;

- наличие систем тестов для оценки и сертификации СЭД;

- разделение спецификации на две части: базовый и опциональные модули;

- содержит «типовые» требования и носит общий характер (вопросы специфичные для секторов экономики не рассматриваются).

В данном разделе приведена таблица, которая показывает, как ключевые стандарты связаны с процессами управления ЭД. Согласно обозначенным в п.1.2.4. этапам ЖЦ ЭД, сравним рассмотренные выше стандарты с точки зрения наличия требований к этапам. Первый этап ввода документа в ИС, в рамках сравнительного анализа, разделим на два подпункта: «создание» и «ввод»; этап управления дополним подпунктом «использование». Таким образом, сводная таблица стандартов управления ЭД представлена в табл. 2.2.

Таблица 2.2. Сравнительный анализ стандартов по управлению ЭД

№ п/п

Стандарт

Создание

Ввод

Обеспечение сохранности

Управление

Использование

Хранение

Передача

Уничтожение

1

ГОСТ Р ИСО 15489-1 - 2007

+

+

+

+

+

+

+

+

2

ГОСТ Р ИСО 23081-1 - 2008

+

+

+

+

+

3

ISO 15836:2003

+

+

+

+

+

4

ISO/TR 15801:2004

+

+

+

5

ISO/TR 18492:2005

+

6

ISO/TR 12037:1998

+

7

ISO 12142:2001

+

8

ISO 19005-1:2005

+

+

+

9

XKMS

+

+

10

MoReq2

+

+

+

+

+

+

+

+

Как видно из сводной таблицы стандарт ГОСТ Р ИСО 15489-1 - 2007 и спецификация MoReq2 обладают набором требований для каждого этапа ЖЦ ЭД и являются обобщающими, в то время как остальные стандарты являются более характерными для разных этапов ЖЦ. Так, к примеру, стандарты метаданных имеют отношение к процессам ввода, использования, обеспечения сохранности, передачи и управления. В их число входят ГОСТ Р ИСО 23081-1 - 2008, охватывающий все виды метаданных для управления документами, и ISO 15836:2003 «Дублинское ядро», специфицирующее стандартный набор метаданных для целей поиска.

Для процесса создания документов наибольший интерес представляют стандарты форматов документов. Примером такого стандарта форматов был рассмотрен стандарт ISO 19005-1:2005, в котором разработано и описано подмножество формата PDF (Portable Document Format - «Переносимый формат для информационных материалов») - PDF-A для использования при архивном хранении.

К процессу ввода имеют отношение различные стандарты метаданных. К этому процессу также относятся некоторые из стандартов форматов, - с точки зрения возможности автоматического извлечения значений метаданных; и стандарты, затрагивающие правовые вопросы, например ISO/TR 15801:2004.

Ключевым стандартом в области обеспечения сохранности ЭД и информации является ISO/TR 18492:2005, содержащий концепцию разработки и управления процессами обеспечения сохранности. Кроме того, большая часть деятельности по обеспечению сохранности существенно опирается на использование стандартов метаданных, а также стандарта ISO 19005-1:2005, определяющего формат, подходящий для длительного хранения документов. Более того, вопрос обеспечения сохранности затрагивается и в стандарте XKMS.

Стандарты метаданных могут поддерживать процессы управления доступом и срокам хранения, а также процессы передачи документов. Также на этапах управления и использования применимы стандарты, затрагивающие правовые вопросы, а именно ISO/TR 15801:2004.

Для этапов процесса ЖЦ ЭД хранение и уничтожение рассмотрены индивидуальные для каждого этапа стандарты. В качестве стандарта в области хранения рассмотрен ISO 12142:2001, фокусирующийся на отдельных аспектах процесса хранения, связанных с хранением информации на оптических дисках. А для процесса уничтожения рассмотрен стандарт ISO/TR 12037:1998, фокусирующийся на отдельных аспектах процесса уничтожения, а именно, удалении.

В результате обзора и анализа, рассмотренных в данном разделе стандартов, можно сделать вывод о том, что выбранные стандарты позволяют очертить общую картину взаимосвязи процессов, затрагивающих ЭД, и стандартов, регламентирующих и предлагающих требования для работы с ЭД. Кроме того, формирование требований к разрабатываемой архитектуре будет основываться на анализе требований, предъявляемых стандартами на определенном этапе ЖЦ ЭД. Таким образом, можно сказать, что за основу требований можно взять обобщающие стандарты, а для определения более характерных этапам требований ссылаться на стандарты, отвечающие на определенные для этапа вопросы.

1.2.6. Понятие электронного документооборота

В настоящее время в Российской Федерации, в частности, действует ряд общегосударственных нормативно-правовых актов, регламентирующих наиболее общие правила подготовки, оформления и организации работы с документами в организации.

В проекте Федерального закона «Об электронном документе» №107599-3 [12], который будет регулировать отношения, связанные с формированием и использованием электронных документов, а также, определяющий основные требования, предъявляемые к ЭД в электронном документообороте (ЭДО), дается следующее понятие ЭДО: электронный документооборот - процесс формирования, обработки, хранения и обмена электронными документами. Несмотря на прозрачность и понятность определения термина «Электронный документооборот», в рамках данной работы особого внимания требует обозначение места ЭДО в процессах КИС.

В определении ЭДО делается упор не только на движение документов, но и на то, что это процесс должен быть организован в электронной среде. Важно также и то, что документооборот зависит от системы управления, является вторичным по отношению к ней, но в то же время именно документооборот, отражая систему управления, позволяет ее наглядно увидеть. Поэтому вторичность порядка движения документов по отношению к целям и задачам организации, документооборот рекомендуется нормировать и регулировать.

Независимо от того, какая организация использует ЭДО, в рамках каждой компании образуется набор ЭД, характерный для вида деятельности конкретной компании. В связи с этим существует достаточное количество видов электронного документооборота, такие как:

- производственный документооборот;

- управленческий документооборот;

- архивное дело (совокупность процедур архивного документооборота);

- кадровый документооборот (процедуры кадрового учета);

- бухгалтерский документооборот и др.

Очевидно, что систем электронного документооборота может быть столько же, сколько существует видов деятельности, как следствие, ИС, автоматизирующие частные виды документооборота, развиваются по направлению массовости.

Более детально, какие базовые виды детальности, понимаются под ЭДО, можно понять, если разделить понятия делопроизводство и документооборот. Электронным делопроизводством называется совокупность операций над документами, а это:

- регистрация входящего документа (автоматическое или ручное задание реквизитов);

- создание исходящего документа;

- сохранение в архиве (публикация);

- внесение изменений (дополнений) в документы и их реквизиты;

- поиск документов;

- задание поручений и контроль исполнения.

В свою очередь, делопроизводство, снабженное дополнительными операциями:

- функциями маршрутизации;

- регистрацией содержания документов;

- выполнением бизнес-процессов, связанных с документом,

называется электронным документооборотом [1]. Это определение охватывает большое число реально функционирующих СЭД - систем автоматизации работы с документами на протяжении всего их жизненного цикла, однако, его осмысление в большей степени зависит от определения жизненного цикла ЭД.

СЭД являются старейшим ИТ-компонентом КИС. Это подтверждает тот факт, что, в частности, широкое внедрение ИТ двадцать лет назад в России начиналось именно с решения автоматизации делопроизводственных задач [9]. Сейчас, в большинстве случаев, СЭД является интегрированной частью общей ИС предприятия. Однако само понятие СЭД со временем претерпевает эволюционные изменения, поскольку расширяется спектр решаемых такими системами задач, выходя за традиционные для России СЭД рамки. Переход от систем для документооборота, решающих ограниченный набор задач (организация распорядительного документооборота и автоматизация канцелярии) к единым технологиям работы документами, пронизывающим все аспекты деятельности организации. Такие технологии называются ECM-технологиями. ECM-система, как и СЭД является частным случаем КИС.

Более того, несмотря на наличие СЭД и ECM-систем, в данной работе принимаются во внимание ИС масштаба всей организации, поскольку СЭД - системы ограничивающиеся ЭДО, в то время как в данном исследовании представляет интерес движение ЭД в рамках всей КИС компании. Именно поэтому в следующем разделе будет рассматриваться применение различных технологий в КИС для работы с ЭД и их анализа.

1.3 Семантические технологии в КИС

Основное направление данной работы - это переход от стандартных методов обработки электронных документов (создание документа, поиск по ключевым словам, редактирование) к методам работы с семантикой (обнаружение смысловых связей, формирование аннотаций) ЭД. Методы работы с семантикой, а также их программная реализация, называются семантическими технологиями. Использование семантических технологий в архитектуре КИС рассматривается в качестве средства повышения качества обработки электронных документов, увеличение функциональности проектируемой архитектуры КИС.

Обзор литературных источников по проблеме проектирования и создания КИС [8,9,18], а также по интеллектуальным методам извлечения знаний из неструктурированных документов [11,22,31] обнаруживает два значительно отличающихся друг от друга подхода к проектированию архитектуры КИС и ее функционалу.

Первый подход - классический, строится на основе комбинирования существующих технологий для поддержки различных процессов работы с документами. К таким технологиям относятся корпоративные порталы, форумы, системы управления документами. Второй подход - семантический, основан на использовании методов и технологий работы со смыслом, семантикой данных, информации и документов (системы, основанные на технологии построения онтологий предметной области, системы поддержки принятия решений, экспертные системы, в которых реализован семантический поиск, автоматическое аннотирование).

Оба подхода не противоречат друг другу, и в рамках данной работы будут использоваться совместно. В настоящем разделе рассмотрим, чем каждый из подходов может быть полезен в процессе совершенствования архитектуры КИС, в рамках ЭДО.

1.3.1. Обзор технологий классического подхода для проектирования архитектуры КИС

В качестве технологий, принадлежащих первому подходу (классическому), целесообразно рассмотреть такие технологии, которые являются составляющими комплексной системы автоматизации документооборота. Рассмотрим СЭД как композицию из трех информационных технологий, реализующих работу с ЭД, таких как:

- корпоративный информационный портал;

- система управления документами;

- WorkFlow_система (система автоматизации бизнес-процессов).

Корпоративный информационный портал (Enterprise Information Portal, EIP) - это информационная автоматизированная система, предоставляющая сотрудникам компании в едином порядке необходимые ресурсы. Первое определение термина «Корпоративные информационные порталы» позволяет отметить назначение, для которого порталы созданы: «Корпоративные информационные порталы - это приложения, которые позволяют раскрывать информацию, хранящуюся внутри и вне организации и предоставить каждому пользователю единую точку доступа к предназначенной для него информации, необходимой для принятия обоснованных управленческих решений» [30].

Порталы первого периода использовались в качестве инструмента для публикации информации от руководства для сотрудников компании. На корпоративном портале можно было ознакомиться с последними организационными изменениями, новостями. Кроме того, портал выполнял функции просто файлового хранилища.

С развитием технологий функции порталов расширялись. Порталы стали использоваться для поиска необходимой информации, таким образом, портальные решения стали развиваться в направлении структурирования и классификации данных, а также повышения скорости и эффективности поиска необходимой информации. Основываясь на вышеописанных задачах, корпоративные порталы стали выполнять функции баз знаний в различных предметных областях связанных с деятельностью компании.

Решая ряд самостоятельных задач, корпоративные информационные порталы являются также ключевым элементом рынка средств управления корпоративным контентом, обеспечивая функции коллективной работы и поддержки документно-ориентированных бизнес-процессов. Упрощенно процесс работы корпоративного портала можно разбить на несколько этапов:

1. В портал из различных источников поступает информация.

2. Портал производит первичное распознание информации и предоставляет ей доступ.

3. При использовании систем управления знанием формируются метаданные.

4. Метаданные проходят через «фильтр», установленный пользователем, при этом ненужные данные отбрасываются.

5. После этого, отфильтрованные данные передаются пользователю.

Кроме того, корпоративный портал обычно разделен на две части:

- Внутренний портал (интранет), в котором расположена защищенная информация, предназначенная для использования ограниченным числом пользователей (здесь используется внутренняя интрасеть).

- Внешний портал, который доступен для общественного использования и в котором расположена публичная информация (здесь используется глобальная сеть Интернет).

Таким образом, можно сделать вывод о том, что современные корпоративные порталы - это мультифункциональные системы, решающие множество технологических и деловых задач. Однако, несмотря на то, что порталы предоставляют возможность оперативного поиска информации и дают эффективные инструменты работы с электронными документами в рамках взаимодействия сотрудников компании, данная технология не обеспечена интеллектуальными средствами для работы с электронными документами.

Система управления документами (Document Management System, DMS) -это информационная система, использующаяся для хранения и отслеживания электронных документов или образов бумажных документов.

Первоначально системы управления документами предназначались для обеспечения несложных функций хранения файлов документов, таких как: хранение и доступ к файлам, просмотр документов, разграничение прав доступа к фалам, ведение протокола доступа к фалам, отслеживание истории обработки документов, управление версиями.

С развитием ИТ, к вышеописанным функциям добавились следующие:

- ведение картотеки документов и инструменты быстрой разработки электронных форм;

- поддержка справочников с информацией для заполнения карточек;

- описание процесса обработки документов (фиксированных маршрутов);

- навигация и организация представления учётной информации о документах;

- свободная маршрутизация документов и поддержка персональных очередей пользователей;

- описание жизненного цикла обработки документа;

- управление маршрутизацией и средствами мониторинга процессов.

Наличие подобных средств управления процессами контроля, движения и обработки документов делает систему применимой для решения гораздо более широкого круга задач, нежели только ведение архива документов. Именно функциональность систем управления документами позволяет добавить в СЭД столь необходимые функции обработки слабоструктурированных данных.

Несмотря на то, что системы управления документами в общем случае предоставляют возможности хранения, версионирования, пометку метаданными и безопасность по отношению к документам, а также индексирование и развитие возможности поиска документа, они так же, как и корпоративные порталы оперируют электронными документами, как единым объектом, не беря во внимание содержание документа, логические связи элементов документа, смысл.

WorkFlow_система (система автоматизации бизнес-процессов) - это информационная система, предоставляющая средства для автоматизации деловых процедур, включая разработку маршрутов, контроль исполнения и пр.

Концепция WorkFlow-системы была предложена компанией Staffware около 20 лет назад. Данная концепция рассматривает весь комплекс задач автоматизации бизнеса как совокупность бизнес-процессов. Инструменты, предоставляемые WorkFlow-системой, обеспечивают формирование описаний процессов, данных, а также содержат средства описания электронных форм для обработки этих данных. Технология WorkFlow подразумевает чёткое исполнение процесса согласно его описанию. Сервисы системы поддерживают реализацию бизнес-процессов, формирование и подготовку очередей заданий к обработке, автоматически обеспечивают нужную активность стадий процесса, контроль своевременности исполнения этапов процесса и различные способы реакции на возникающие проблемы.

Современная промышленная WorkFlow-система обладает гибким инструментарием моделирования процессов актуальных для компании, отслеживания состояния процессов и получения информации о несоответствии их течения, накопления статистики об отклонениях. Таким образом, WorkFlow_система позволяет непрерывно улучшать и реструктурировать бизнес-процессы компании.

Наличие средств семантического анализа данных позволило бы такой системе существенным образом повлиять на скорость реализации бизнес-процессов, а также на производительность и качество труда сотрудников. Однако в данной концепции не предусмотрено наличие таких технологий. Для того чтобы применить в архитектуре КИС концепцию семантических технологий анализа ЭД, тем самым совершенствовать процесс ЭДО, а также повсеместного использования документов в КИС, необходимо обозначить технологии, с помощью которых можно совершенствовать архитектуру.

1.3.2. Обзор технологий семантического подхода для проектирования архитектуры КИС

Семантические технологии представляют собой направление развития информационных технологий, основывающееся на переходе от потокового представления данных (изображения, гипертекст и пр. поточные способы представления данных) к семантическому, позволяющему определять содержание и смысл данных. Таким образом, основная идея семантических технологий сводится к тому, чтобы все данные в ИС были бы пригодны для анализа.

Для того чтобы данные проанализировать и применить результаты в совершенствовании деятельности компании, необходимо определить метод представления знаний. В семантических технологиях встречается множество методов представления знаний, таких как: деревья решений, семантические сети, нейронные сети, фреймы и сети фреймов, онтологии, правила продукции и др.

В рамках данной работы, наибольший интерес представляет онтологический метод, поскольку использование именно этого подхода позволит реализовать в архитектуре КИС требуемые функциональные возможности по управлению ЭД. Следует отметить, что для машинной обработки данных, в семантическом подходе предусмотрено использование нескольких основополагающих принципов, входящих в стек понятий семантических технологий [35].

Во-первых, необходимо использование такой системы идентификации объектов, которая обеспечит однозначную и единообразную идентификацию какого-либо ресурса (документа, изображения и пр.). С такой задачей справляется глобальная схема имен (Uniform Resource Identifier, URI).

Во-вторых, данные, представленные в семантической форме, записываются в форме «субъект - отношение - объект». Такая форма представления данных называется триплетом и позволяет понять пользователю факт, который сообщает система. Например, может быть передано такое сообщение: «сотрудник имеет № банковской карты, равный 111111». Для того чтобы любую информацию можно было записать в такой форме триплетов, можно воспользоваться моделью описания данных и метаданных (Resource Description Framework, RDF), предложенную консорциумом всемирной паутины (World Wide Web Consortium, W3C).

В-третьих, необходимо установить все возможные виды объектов, их свойства и связи и утверждения в формате RDF в дальнейшем можно интерпретировать и представить в виде онтологий, описанных с помощью языка описания онтологий (Web Ontology Language, OWL).

Таким образом, основываясь на принципах семантических технологий, в данном разделе будут рассмотрены основные технологии семантического подхода:

- системы, основанные на технологии построения онтологий предметной области;

- экспертные системы, в которых реализован семантический поиск, автоматическое аннотирование;

- системы управления знаниями.

А в качестве таких систем, в которых реализованы технологии семантического подхода, направленные на работу с семантикой данных ЭД будут рассмотрены:

- портал знаний, реализованный на платформе Microsoft SharePoint;

- портал знаний, реализованный на платформе Oracle Portal;

- система извлечения знаний из документов «Аналитический курьер» компании «Ай-Теко».

Системы, основанные на технологии построения онтологий предметной области, проектируются при помощи онтологического моделирования. Онтологическое моделирование - это процесс построения, развития, обработки и использования онтологии предметной области. Согласно общепринятому определению под онтологией (в широком смысле) понимается база знаний специального типа, которая может «читаться» и пониматься, отчуждаться от разработчика и/или физически разделяться ее пользователями [18].

Анализ литературных источников в области онтологического моделирования показывает, что научно-техническими предпосылками данного направления являлись исследования и разработки в таких областях, как искусственный интеллект, Data Mining (интеллектуальный анализ данных), Semantic Web (семантическая паутина). Следовательно, использование онтологического моделирования, в качестве семантического подхода для проектирования архитектуры КИС будет являться способом всеобъемлющей и детальной формализации некоторой области знаний с помощью концептуальной схемы. Обычно такая схема состоит из структуры данных, содержащей все релевантные классы объектов, их связи и правила (ограничения), принятые в этой области.

Помимо стандартных ролей, онтологии могут взять на себя ещё одну роль - наполнение информацией пользовательских интерфейсов, в дополнение к стандартной роли по интеграции информации. В этой связи такие структуры называются адаптивными онтологиями. Некоторые из дополнительных применений адаптивных онтологий: названия атрибутов и подсказки, навигация и просмотр структур и деревьев, структуры меню, автоматическое завершение при вводе данных, контекстные выпадающие списки выбора, проверка правописания, и т.д. Иными словами, то, что делает онтологию адаптивной, это добавление к стандартной машиноориентированной цели онтологии дополнительных средств для понимания человеком - названий, синонимов, определений и прочего. Системы, основанные на онтологиях - это модульные приложения общего плана, предназначенные для работы в соответствии со спецификациями, содержащимися в адаптивной онтологии.

Системы, основанные на онтологиях, предназначены для выполнения конкретных общих задач: импорт и экспорт в различные форматы, создание и управление наборами данных, отчетность, просмотр, поиск, визуализации данных, распределение прав доступа пользователей, и тому подобное. Эти приложения определяют свои специфические функции в соответствии с содержащимися в онтологии спецификациями. Основным преимуществом является то, что одна система может реализовать некоторые общие функции, основанные на любой правильно построенной адаптивной онтологии.

Экспертные системы, с семантическим поиском также являются примером систем, реализующих семантический подход в работе с неструктурированными документами. Упомянутые выше адаптивные онтологии, которые предназначены именно для человеческого понимания, покрывают бизнес-терминологию конечных пользователей, включая синонимы и омонимы. Это позволяет внедрять продвинутые технологии поиска данных, такие как фасетный поиск.

Фасетный поиск - это поиск с использованием фасетной классификации (совокупность нескольких независимых классификаций, осуществляемых одновременно по различным основаниям), многочисленных фильтров, основанных на классификациях информации по различным признакам. Реализуется на основе онтологий (фасеты генерируются на основе иерархии концептов в онтологии), учитываются отношения между сущностями в онтологии [21].

Системы управления знаниями (СУЗ) существенно отличается от ИС организаций, предназначение которых эффективное хранение данных, обработка и предоставление информации. СУЗ представляет собой систему, реализующую функции увеличения объема и повышения уровня использования знаний организации, используя эффективный поиск и фильтрацию данных, знаний.

Основной объект, которым оперируют СУЗ - знания. Система управления знаниями обладает такими технологиями, с помощью которых сотрудники организации могут взаимодействовать на уровне моделирования бизнес-процессов с помощью теории, концепций, достоверных знаний сотрудников. Все это достигается за счет использования в СУЗ языка описания профессионального общения, который опирается на метаописания и онтологии предметной области. Назначение СУЗ, предложенное в [19], иллюстрирует схема, представленная на рис. 1.4.

Рис. 1.4 Назначение систем управления знаниями

Если предназначением учетной ИС является эффективное хранение, обработка и предоставление пользователям по регламенту или запросу искомой информации, то предназначением СУЗ является увеличение объема и повышение уровня использования знаний организации за счет их эффективного поиска и фильтрации, включения в коллективную память компании профессиональных знаний и опыта, в том числе хранящегося в головах специалистов. Как видно на схеме, СУЗ взаимодействует с бизнес-процессами компании, а знания накапливает из различных источников, таких как: базы знаний, базы данных, метаописания, онтологии. Особенный интерес в данных системах представляет использование онтологических моделей для представления знаний.

Портал знаний, реализованный на платформе Microsoft SharePoint, представляет собой попытку практического применения теории управления знанием. Обеспечивая прямое взаимодействие пользователей с необходимым интеллектуальным капиталом, портал знаний ускоряет обработку информации и снижает объем повторяемой работы в организации.

Каждый портал знаний может иметь иерархическую или сетевую структуру, т.е. состоять из более специализированных порталов, связанных некоторыми отношениями, например, отношением “общее-частное”. Такая архитектура делает портал знаний гибким и легко расширяемым. В основе порталов знаний лежат онтологии, содержащие описание устройства и типологии соответствующих сетевых ресурсов. Основными компонентами портала знаний являются: онтология, коллекционер онтологической информации о ресурсах, конструктор запросов и формирователь ответов.

Основная цель порталов знаний - объединение ряда возможностей по управлению знаниями в компании. Портал должен охватывать все уникальные аспекты и компоненты предприятия, позволяя отказаться от отдельных, специализированных и несовместимых порталов. Архитектура порталов знаний должна совмещать возможности различных приложений и источников информации и служить единственной точкой доступа, обеспечивая общие метаданные и уровни безопасности. Для реализации этого следует обратиться к объектно-ориентированным методам. Способность вместить и содержимое, и правила, создать специализацию посредством подклассов делает объекты безальтернативным средством представления источников, отношений и взаимодействий, содержащихся внутри портала знаний.

Существует несколько платформ, на которых ведется реализация порталов знаний. Платформа Microsoft SharePoint представляет собой рабочую платформу для предприятий и работы в сети Интернет, интегрированные функции которой предоставляют широкие возможности коммуникации между людьми. Благодаря унифицированной инфраструктуре SharePoint Server 2013 позволяет снизить расходы и дает возможность быстро реагировать на потребности предприятия независимо от способа развертывания: как на месте, так и в качестве размещенной службы. Портал знаний, реализованный на платформе SharePoint Server 2013 предназначен для:

- общения сотрудников и обмена информацией между сообществами, что дает возможность делиться знаниями и идеями;

- управления корпоративным содержимым и балансирование между обеспечением взаимодействия с пользователем и соответствия политике и процессу;

- реагирования на изменение потребностей компании путем принятия решений на основе данных;

- помощи пользователям в поиске необходимого содержимого, сведений и других пользователей с помощью поиска в корпоративной среде.

Портал знаний, реализованный на платформе Oracle Portal выполняет все те же задачи портала знаний, которые были перечислены выше. Однако платформа реализации портала Oracle Portal обладает отличными от SharePoint Server 2013 особенностями. Основные составляющие порталов знаний, реализованных на платформе Oracle Portal:

- библиотеки готовых компонентов;

- средства управления содержанием с поддержкой коллективной работы;

- средства для сквозного полнотекстового поиска информации на портале, в интернет/интранет, в базах данных и в хранилищах неструктурированной информации;

- средства интеграции внешних систем, приложений, различных видов источников данных;

- средства для анализа бизнес-информации (BI - Business Intelligence);

- средства однократной регистрации и управления информационной безопасностью;

- средства поддержки мобильного беспроводного доступа;

- интегрированное средство разработки веб-приложений.

Объединяя существующие и развивающиеся технологии совершенствования порталов знаний, вне зависимости от платформы реализации поратала, можно сказать, что корпоративные порталы знаний стремятся к интеграции таких информационных ресурсов и технологий, как: электронная почта и Интернет-ресурсы; системы управления базами данных (СУБД) и сами базы данных (БД); средства создания хранилищ данных; системы поддержки групповой работы; локальные системы автоматизации и документооборота; системы документооборота; экспертные системы и базы знаний; знания специалистов и др.

Система извлечения знаний из документов «Аналитический курьер» компании «Ай-теко» представляет собой инструмент для исследования событий, проблем или объектов путем мониторинга ресурсов сети интернет и других источников. Данная система реализует следующие возможности:

- анализ мнений субъектов относительно объектов;

- анализ тональности в отношении объектов;

- анализ связей между объектами и темами в объеме всего хранилища документов;

- выявление источников информационных кампаний и атак, поиск перепечаток;

- мониторинг наиболее обсуждаемых тем и сюжетов в потоке поступающих документов;

- социометрия авторов и сообщений, пространственная локализация авторов;

- анализ динамики развития событий, частотный анализ тем;

- прогноз появления событий нужных типов и определение их значимости;

- тематическая классификация входных сообщений и др [14].

Система используется в области прогнозной аналитики, а инструменты семантического анализа текста в составе системы применяются для прогнозирования появления определенных событий, для выявления их информационных профилей и др. Кроме того, в состав системы входит отказоустойчивое масштабируемое хранилище Big Data, позволяющее надежно и эффективно обрабатывать миллиарды документов. Оно может использоваться отдельно от системы, входит в состав многих приложений, разработанных для различных пользователей.

Все рассмотренные в данном разделе системы, так или иначе, имеющие в своем составе семантические технологии, являются достаточно узконаправленными на применение семантических технологий и не решают весь перечень функциональных задач проектируемой КИС. Однако технологии онтологического подхода, позволяющие построить такие системы, которые основаны на онтологии предметной области или в которых реализован семантический поиск и аннотирование являются наиболее подходящими для использования в проектируемой архитектуре КИС.

Из анализа некоторых возможностей систем, реализующих семантический подход, представляется возможным сформировать сводную таблицу (см. табл. 2.3), отображающую применение семантических технологий в частности, использующих онтологический подход представления знаний на разных этапах ЖЦ ЭД.

Таблица 2.3. Задачи, решаемые семантическими технологиями на разных этапах ЖЦ ЭД

Этап ЖЦ ЭД

Задача

1

Ввод

- классификация документов (тематическое индексирование) кластеризация документов

- описание документа

- описание элементов предметной области

2

Хранение

- хранение элементов документа (содержимое, метаданные)

3

Обеспечение сохранности

- оценка полноты, целостности и непротиворечивости документов

4

Управление

- интеллектуальная интеграция информации

- информационный поиск

- поиск зависимостей между документами

- обеспечение доступа к содержательным знаниям и данным из документов в ИС

- визуализация знаний и данных

- генерация ответа на запрос к ИС

5

Доставка

- управление маршрутами движения документов

6

Вывод

- экспорт в различные форматы

Применение онтологий в архитектуре КИС дает возможность выполнения большого спектра задач представления, обработки знаний, содержащихся в ЭД, а также исполнение запросов к данным, извлеченным из ЭД. Кроме онтологического подхода в архитектуре КИС, можно использовать технологии Text-Mining, непосредственно занимающиеся извлечением данных из неструктурированных документов.

1.3.3. Применение классических и семантических технологий в КИС

На основе определенного в п. 1.2.4. ЖЦ ЭД в КИС (см. рис. 1.5), обозначим классические технологии, которые применяются на каждом из этапов и определим те этапы ЖЦ ЭД, в которых применение семантических технологий позволит совершенствовать движение ЭД в КИС.

Рис. 1.5 Этапы жизненного цикла ЭД в КИС

Рассмотрим каждый этап ЖЦ подробно.

Этап 1. Ввод документа в ИС. На данном этапе ЖЦ информация создается или импортируется в ИС извне. С этого первого шага начинается движение информации на предприятии, и как следствие возникает задача управления ею. Условно можно выделить два класса информации: создаваемая человеком и создаваемая приложениями. К первому классу относятся бумажные и электронные документы, различные заполненные формы и анкеты, мультимедийная информация (аудио, видео, изображения и т. п.), а также информация на архивных носителях, например, на микрофильмах. Ко второму классу (информация, создаваемая приложениями) относятся данные, выгружаемые из других ИС (ERP, CRM, специализированные системы), электронные формы, электронные данные, полученные по каналам электронного обмена.

На этапе ввода используются следующие технологии:

- Сканирование документов. Эта технология позволяет работать в системе с образами бумажных документов, что не только многократно повышает удобство работы, но и делает возможным параллельную и удаленную работу с одними и теми же документами.

- Распознавание образов документов (технологии OCR/HCR/ICR/OMR/IDR). Это целая совокупность технологий, включающая не только оптическое распознавание символов, но и такие технологии, как интеллектуальное распознавание символов и целых документов, распознавание рукопечатных символов (используется при распознавании бумажных форм), распознавание меток.

- Обработка форм. Формы могут быть бумажные, электронные или веб-формы. Заполненные формы пересылаются на участок обработки, где их содержимое заносится в систему.

- Агрегация. Информация может поступать из разных источников, но в ИС она должна быть представлена как логически целая.

- Интеграция. Информация в ИС может поступать из других ИС. Интеграционному решению необходимо решать задачи -- захвата и преобразования данных и метаданных, сохранение юридической значимости информации и др.

- Классификация. Полученная информация индексируется, классифицируется и категоризируется, получает регистрационные номера, чтобы в дальнейшем в ИС была возможность эту информацию найти, а также на нее ссылаться.

Этап 2. Хранение документа в ИС. Информация, поступившая в систему, хранится в ней в соответствии с установленными для этого класса информации политиками. Вопросы хранения могут быть рассмотрены на нескольких уровнях абстракции, от физических методов до политик и общей стратегии управления информацией на предприятии.

Технологии, применяющиеся на данном этапе:

- SAN, NAS, CAS, магнито-оптические диски, CD/DVD, дисковые и ленточные библиотеки, SSD, RAID. Это целый парк технологий и периферийных устройств, предназначенных для хранения информации. Выбор той или иной технологии обуславливается объемом информации, сроком хранения, параметрами доступа к ней пользователей, требуемым уровнем надежности и безопасности;

- файловые системы, CMS, базы данных, хранилища данных, репозитории. На этом уровне решаются вопросы организации хранения данных на уровне файлов, записей в базе данных, контента в хранилище и CMS.

Перечисленные технологии призваны решать следующие задачи, возникающие в процессе хранения:

1) поиск;

2) контроль версий;

3) регистрация прибытия/убытия документов и информации;

4) блокировка;

5) аудит действий пользователей;

6) извлечение документов и информации.

На логическом уровне можно выделить задачу управления политиками хранения.

Этап 3. Обеспечение сохранности. Этот этап ЖЦ можно также определить как отдельное направление деятельности, включающее в себя ряд задач:

- обеспечение юридической значимости информации;

- перевод системы в специальные режимы (аудит, проверка и т. п.);

- восстановление информации, пострадавшей в результате катастроф природного и техногенного характера;

- своевременный перевод в новые форматы и на новые носители (это особенно актуально при долговременном хранении информации).

Для решения этих и других задач могут быть использованы различные инструменты и технологии:

- электронная подпись;

- специальные архивные форматы, например PDF-A [23];

- вывод информации на архивные носители (бумага, микрофильмы);

- резервное копирование и восстановление информации;

- контролируемая конвертация и перенос на другие носители.

Этап 4. Управление документом. Информация, которая обращается в организации и хранится в ИС, только абстрактно представляет собой что-то логически целое. На практике выделяют несколько классов и соответственно несколько отдельных видов деятельности или дисциплин:

- управление документами;

- управление информацией, значимой с точки зрения законодательства или бизнеса;

- управление цифровыми активами;

- управление электронной почтой;

- управление веб-контентом;

- организация взаимодействия;

- управление бизнес-процессами.

Стоит отметить, что эти задачи могут пересекаться и включать в себя другие, и выделение перечисленных дисциплин носит условный характер.

Этап 5. Доставка документа. Хранение информации -- не самоцель, информация постоянно используется в повседневной деятельности. Поэтому в сферу деятельности ИС входит организация ее доставки потребителям.

На этапе доставки данных можно выделить следующие задачи:

1. Управление правами доступа. В системе, как правило, хранится информация, предназначенная для разных групп пользователей. Поэтому невозможно представить себе систему документооборота без механизма управления правами доступа.

2. Управление отчетами, печатью и публикациями. Результатом ряда бизнес-процессов является бумажный или электронный документ, доступ к другой информации осуществляется через интернет- и интранет-порталы. Либо затребованные документы отправляются электронной почтой или по другим каналам связи.

3. Организация доступа с мобильных устройств. Удаленная и мобильная работа с корпоративной информацией для ряда сотрудников становится не вспомогательным, а основным сценарием.

4. Межведомственный электронный документооборот (МЭДО). Отказ от бумаги и переход на электронный документооборот между организациями помимо того, что даёт экономию на бумаге, печати и расходов на доставку, позволяет организовать совместную работу над документами, увеличить скорость и эффективность взаимодействия.

Для решения этих и других задач используются технологии:

- управление правами доступа к цифровой информации, «водяные знаки»;

- электронная подпись, инфраструктура публичных ключей подписи;

- преобразование, форматирование, сжатие и объединение информации;

- XML, JSON, SOAP, REST.

Этап 6. Вывод документа из ИС. Информация, хранящаяся в ИС, может быть отправлена в архив или удалена по истечении определенного периода времени согласна установленным нормам. Технологии, использующиеся на этапе вывода информации из ИС, связаны с организацией полного удаления данных из ИС и представляют собой встроенные в архитектуру модули вывода из ИС.

Каждый из вышеописанных этапов ЖЦ, в совокупности с технологиями, может быть дополнен возможностями семантического подхода в ключе управления ЭД. В качестве основной семантической технологии, в связи с перспективностью ее использования в архитектуре КИС, в разделе 1.3.2 определен онтологический подход. Данный подход можно использовать для реализации различных задач, перечисленных в таблице 2.3, например, таких как:

- хранение элементов документа (содержимое, метаданные)

- интеллектуальная интеграция информации;

- информационный поиск;

- поиск зависимостей между документами;

- обеспечение доступа к содержательным знаниям и данным из документов в ИС;

- визуализация знаний и данных;

- генерация ответа на запрос к ИС.

Перспективным преимуществом при внедрении в архитектуру КИС семантических технологий является получение удобной интегрированной КИС, которая включает в себя функции существующих в настоящее время технологий классического подхода, а также проектируется с учетом применения методов семантического подхода, таких как: онтология предметной области, семантический поиск, аннотирование, классификация и др.


Подобные документы

  • Сущность автоматизации управления документооборотом. Понятие электронного документа и функции традиционного документа. Системы электронного документопроизводства. Новый подход к созданию документов и использование корпоративных информационных порталов.

    реферат [26,2 K], добавлен 27.02.2009

  • Подача заявления на разработку электронного документа. Свойства элементов документа. Методы устранения недостатков технологических процессов. Изменение формата хранения данных. Установление контрольных точек в операционных технологических процессах.

    курсовая работа [137,8 K], добавлен 15.10.2012

  • Сущность, структура и значение приложения Microsoft Office 2003, его основные возможности. Концепция электронного документа и его обязательные реквизиты. Особенности технологии создания и редактирования текстового документа в Microsoft Word 2003.

    реферат [23,0 K], добавлен 23.11.2010

  • Понятие электронного документа, отличие от иных видов документов. Юридическая сила и правовой режим электронного документа и документооборота. Процедуры разрешения конфликтов. Основные типы текстовых электронных документов и выбор средств их оформления.

    реферат [24,5 K], добавлен 22.08.2010

  • Особенности функционирования документной информации в обществе. Возникновение и развитие электронного документа. Нормативно-правовые основы работы с электронными документами. Электронный документ в управленческой деятельности современных организаций.

    курсовая работа [57,6 K], добавлен 07.01.2015

  • Разработка структуры корпоративной информационной системы (иерархия взаимодействия отдельных элементов на программном и аппаратном уровнях). Выбор компьютерного оборудования (клиентские станции, серверы), системного и прикладного программного обеспечения.

    курсовая работа [1,8 M], добавлен 13.02.2016

  • Описания систем планирования ресурсов предприятия. Документирование и стандартизация процесса разработки корпоративной информационной системы. Создание основных объектов конфигурации, документов, регистров, отчетов, ролей и интерфейсов пользователей.

    курсовая работа [3,0 M], добавлен 18.05.2016

  • Понятие и типология электронных предприятий, методы автоматизации их деятельности. Особенности функционирования и архитектуры современного электронного предприятия, анализ и оценка экономической эффективности методов его деятельности, автоматизации.

    дипломная работа [127,4 K], добавлен 28.06.2010

  • Разработка универсальной системы электронного документооборота HotDoc с разграничением прав доступа пользователей, с эффективной системой поиска документа, с возможностью внедрения в различные организации. Реализация программы в виде веб-приложения.

    дипломная работа [5,5 M], добавлен 24.09.2012

  • Проектирование функционального модуля по учету кадров на предприятии в отделе кадров. Анализ предметной области. Создание документа, формально определяющего существование проекта, то есть технического задания на проект фрагмента информационной системы.

    курсовая работа [2,2 M], добавлен 11.12.2012

Работы в архивах красиво оформлены согласно требованиям ВУЗов и содержат рисунки, диаграммы, формулы и т.д.
PPT, PPTX и PDF-файлы представлены только в архивах.
Рекомендуем скачать работу.