Оперативное управление в органах внутренних дел

Современная структура системы управления органами внутренних дел (ОВД). Обеспечение эффективности функционирования системы оперативного управления ОВД. Анализ методов отбора релевантной информации в системах информационного обеспечения управления.

Рубрика Государство и право
Вид контрольная работа
Язык русский
Дата добавления 11.07.2015
Размер файла 1,3 M

Отправить свою хорошую работу в базу знаний просто. Используйте форму, расположенную ниже

Студенты, аспиранты, молодые ученые, использующие базу знаний в своей учебе и работе, будут вам очень благодарны.

Документы и запросы рассматриваются в некотором векторном пространстве, которое определяется Nt различными терминами, представляемыми как линейно-независимые векторы, исходя из предположения независимости всех терминов.

Соответствие между векторами документа и запроса может быть представлено как скалярное произведение. Также используется рассмотрение косинусной меры сходства (cosine similarity) или коэффициента косинуса, равного отношению скалярного произведения этих векторов к произведению их длин:

sim(d,q) = , (3.3.3)

где sim(d,q) - схожесть векторов документа и запроса.

Достоинствами данной модели являются простота и возможность динамической корректировки векторов документов и запросов.

Вероятностная модель.

Данная модель позволяет учитывать как зависимости и связи между различными терминами, так и некоторые параметры, например веса терминов. документы и запросы представляются в виде векторов терминов.

Для установления соответствия документа и запроса вводятся следующие параметры: вероятность релевантности P(rel d) и вероятность нерелевантности P(norel d) документа d и некоторые параметры и , характеризующие потери, связанные с получением нерелевантных документов и неполучением релевантных документов. Для определения релевантности вводится понятие поисковой функции следующего вида:

g - (3.4.1)

Значение функции для документа d определяет его релевантность или нерелевантность.

Релевантность документа зависит от свойств релевантности множества терминов, содержащихся в этом документе. Существующие способы выражения вероятности релевантности документа в целом через вероятности релевантности отдельных терминов, например, через нормальное, биномиальное, пуассоновское или экспоненциальное распределения, предполагают наличие информации о вероятности вхождения либо всех отдельных терминов, либо всех пар терминов, либо любых подмножеств терминов. Так как практически получить такую информацию довольно сложно, для вычислений оставляют наиболее важные зависимости терминов, например, предполагают, что каждый термин зависит только от какого-либо одного другого термина, или, наоборот, пренебрегают всеми зависимостями терминов.

Недостатками данной модели являются сложность получения достоверных значений необходимых параметров. Вероятности вхождения терминов в релевантные и нерелевантные документы оцениваются с помощью документов, полученных в результате предыдущих операций поиска, и не всегда имеется возможность оценки необходимых параметров с достаточной точностью.

Латентно-семантическая модель.

Аналогично векторной модели, документы и запросы рассматриваются как векторы терминов. Однако, пространство, где рассматриваются документы, формируется в соответствии с теорией латентно-семантического анализа, с помощью методов которой имеется возможность определять контекстно- зависимые значения слов по результатам статистической обработки больших наборов текстовых данных и выявлять схожесть отдельных терминов и групп терминов. Исходными данными при латентно-семантическом анализе служит матрица сопряженности «термины - документы», элементами которой являются величины частот терминов в документах. Данная матрица разлагается на некоторое количество ортогональных матриц, от нескольких десятков до нескольких сотен с использованием методов разложения матрицы по сингулярным значениям. Использование такого разложения позволяет сократить размерность матрицы, сохраняя при этом основную структуру ассоциативных зависимостей терминов в документах и избавиться от шума.

Степень соответствия между документами и запросами также определяется с помощью скалярного произведения соответствующих векторов. К недостаткам этой модели можно отнести сложность определения оптимальной размерности конечной матрицы. При слишком большой размерности в матрицу могут попасть некоторые случайные и незначимые зависимости, при слишком маленькой - наоборот, реально существующая структура данных может быть отражена неправильно, и конечная матрица не будет содержать важных зависимостей.

Энтропийная модель.

Для описания данной модели используется статистический математический аппарат, разработанный К. Шенноном, позволяющий рассматривать работу поисковой системы по аналогии «черного ящика», где входной документ аналогичен поступающему входному символу, а выходной документ - выходному символу. Таким образом, применив метод аналогии к матрицам сопряженности

«релевантность-выдача» и «вход-выход» можно определить, что:

1) входной единичный символ - поданный на вход системы релевантный документ;

2) входной нулевой символ - поданный на вход системы нерелевантный документ;

3) выходной единичный символ - документ, признанный системой релевантным;

4) выходной нулевой символ - документ, признанный системой релевантным.

Матрица сопряженности может быть представлена таблицей 3.3.

Таблица 3.3. Матрица сопряженности «вход-выход» канала связи.

ВХОД

1

0

ВЫХОД

1

a

b

0

c

d

a - поданные на вход единичные символы, воспринятые как единичные символы на выходе;

b - поданные на вход нулевые символы, воспринятые на выходе как единичные символы;

c - поданные на вход единичные символы, воспринятые на выходе как нулевые;

d - поданные на вход нулевые символы, воспринятые на выходе как нулевые символы.

Тогда о работе поисковой системы можно судить по матрице сопряженности «релевантность - выдача», при этом существуют следующие вероятности:

1) вероятность релевантности случайно поданного на вход документа;

2) вероятность признания поисковой системой релевантным документа, случайно поданного на вход;

3) вероятность признания поисковой системой релевантным поданного на вход релевантного документа;

4) вероятность признания поисковой системой нерелевантным поданного на вход нерелевантного документа;

5) вероятность релевантности документа, признанного поисковой системой релевантным;

6) вероятность нерелевантности документа, признанного поисковой системой нерелевантным.

На основе полученных вероятностей определяют различные энтропии, которые могут быть использованы для оценки качества работы поисковой системы.

Корреляционная модель.

Данная модель рассматривает систему информационного поиска как «черный ящик», который на каждый поданный на вход вектор отвечает соответствующим выходным вектором той же размерности, соответствующей количеству документов в наборе. Каждый элемент входного вектора соответствует мере истинной релевантности одного документа набора, а соответствующий элемент выходного вектора соответствует мере релевантности, определенной поисковой системой (т.н. автоматной релевантности). При этом проводится аналогия между мерами истинной и автоматной релевантности, значениями случайных величин релевантности и выдачи.

Данная модель использует допущение, что выражения для вычисления коэффициента линейной корреляции двух случайных величин и вычисления скалярного произведения нормированных и центрированных векторов совпадают, и в качестве степени связности истинной и автоматной релевантности используется коэффициент линейной корреляции, который может быть вычислен по формуле скалярного произведения соответствующих векторов в выбранной метрике семантического преобразования.

Теоретико-множественные модели получили распространение из-за простоты реализации, в отличие от вероятностных моделей, которые описывают процедуру документального поиска наиболее естественным способом. Но наибольшее распространение получили алгебраические модели, потому что эффективность их работы оказывается на практике намного выше остальных.

В данном исследовании рассмотрена модель документального поиска, основанная на применении теории множеств. Основным обстоятельством, обусловливающим представление информационно-поисковых систем в форме теоретико-множественных моделей, является тот факт, что в процессе документального поиска операции осуществляются над множествами элементов: множествами ключевых слов или дескрипторов с одной стороны, и множествами документов с другой. Существующие отношения между множествами документов и их поисковыми описаниями служат основой построения теории информационного поиска.

управление орган внутренний дело

4. Методы формирования словаря предметной области на основе логико-лингвистического моделирования

Процесс перевода текста документа с естественного на искусственный язык, предназначенный для формализации представления смыслового содержания текста документа с целью последующего хранения и поиска, является процессом индексирования.

Существует множество различных методов индексирования. В основу многочисленных классификаций положены алгоритмы индексирования; статистические параметры текстов; разнообразные синтаксические, семантические критерии и ряд других факторов. Процесс индексирования может быть ручным (индексированием занимаются специалисты-индексаторы) и автоматическим (ИПС сама формирует индекс). Алгоритмы индексирования подробно описаны во многих работах

В процессе индексирования в тексте документа выделяют термины, которые обычно выражены словами или словосочетаниями, приведенными к канонической форме, при этом все термины принято делить на функциональные (союзы, предлоги и т.п.) и нефункциональные, имеющие отношение к смыслу документа. Функциональные термины не представляют интереса для индексирования, они заносятся в списки исключений и удаляются. Оставшиеся нефункциональные термины также обладают недостатками. Существуют термины, значение которых или слишком обще, или слишком специфично. Между словами могут существовать отношения, которые не явно содержатся в тексте, но могут быть выведены из контекста или из других, ранее проанализированных текстов. Значения многих слов могут изменяться со временем или могут быть созданы новые слова, обозначающие сущность, ранее обозначавшуюся другими терминами. Для выражения одного или нескольких близких значений могут использоваться многие слова (синонимия). Также существует проблема омонимии и полисемии. Такие термины на следующем этапе индексирования заменяются на более подходящие, что увеличивает однозначность смысловых понятий и полноту индексирования.

Для определения классов терминов существуют различные методы, среди которых статистические, вероятностные и лингвистические.

Статистические методы для выделения классов терминов используют статистическую информацию о вхождении терминов в документ. Например, если использовать двумерный массив, каждая строка которого соответствует документу, а столбец - термину, то каждая ячейка данной матрицы будет соответствовать величине, характеризующей ценность этого термина в данном документе, например единица, если термин присутствует в документе, и ноль - если отсутствует. При анализе столбцов матрицы определяются термины со схожими распределениями в документах и объединяются в классы

Вероятностные методы формируют классы терминов на основе вероятности вхождения комбинаций терминов в подмножества релевантных и нерелевантных документов и выделения зависимостей терминов. Модель зависимости терминов обычно представляет собой граф, в вершинах которого находятся термины, а ребра графа характеризуют зависимость между терминами.

Лингвистические методы группируют термины на основе их принадлежности к тому или иному синтаксическому классу, чтобы выделить словосочетания, которые могут быть полезны для индексирования.

Для замены специфических терминов практикуется использование тезаурусов. Тезаурус объединяет группы связанных специфических терминов в классы, после чего такие термины могут быть заменены специальным идентификатором этого класса. Общие термины можно заменить сочетаниями терминов или группами связанных терминов, так называемыми «группами условной эквивалентности», типичными представителями которых будут являться множество дескрипторов. Такие множества строго детерминированы и лишены признаков синонимии и полисемии, так как имеют более определенные значения для установления однозначности смысловых понятий. При формировании словарей поисковых терминов предметных областей дополнительно могут вводиться базисные отношения в виде родовидовых отношений, отношений ассоциации и сочетания.

Завершением индексирования является присвоение простым терминам, сочетаниям терминов и тезаурусным классам весов, определяющих их важность в документе и используемых в дальнейшем при ранжировании документов выдачи. Важную роль играют посещаемость, авторитетность источника, частота обновления, цитируемость страницы и др.1

Большое значение в функционировании ИПС имеет лингвистическое обеспечение. Именно лингвистическое обеспечение отвечает за такие процессы, как индексирование документов и запросов, эффективный поиск в базах данных по тематическим запросам и межсистемное информационное взаимодействие. Лингвистическое обеспечение в автоматизированных информационных системах позволяет наиболее эффективным образом реализовывать функции поиска и отбора релевантных источников информации.

В классической лингвистике язык понимается как основное средство отображения и передачи информации об окружающем мире.

Существуют следующие подходы к исследованию языка:

4. Традиционные, ограничивающиеся изучением обыденного языка; 2.Семиотические, рассматривающие язык как знаковую (семиотическую) систему;

3.Экстралингвистические, которые анализируют нестандартные естественные и искусственные языки.

Естественный язык (ЕЯ), формируемый путем постоянного обогащения в процессе жизнедеятельности его носителей, характеризуется таким явлением, как полисемия (многозначность). Как правило, существует объективная трудность или невозможность его полной формализации.

В противоположность ЕЯ, искусственный язык (ИЯ) создается путем формализации с использованием определяемых аксиом и правил построения. Символы ИЯ могут не иметь первоначального смысла, а определяться посредством методов интерпретации формальных систем, из чего следует, что каждому предложению естественного языка могут быть определены одна или несколько интерпретаций в языке искусственном.

Таким образом, при создании ИЯ особое внимание уделяется вопросам семантики, т.е. значению и смыслу языковых выражений и прагматики, отвечающей за однозначность использования и толкования знаковых конструкций языка. Изучение смысла подразумевает, прежде всего, перевод предложений ЕЯ в соответствующие формальные структуры и, далее, рассмотрение логических правил, по которым они выстроены, так как язык можно интерпретировать как множество правил и схем конструирования лингвистических единиц, включая способы осмысливания и толкования языковых конструкций.

Согласно 1 , существуют три основные, так называемые, «языковые»

функции логики:

а) логика как язык представления знаний и формализации рассуждений; б) логика как язык программирования;

в) логика как инструмент исследования языка.

Последняя функция включает синтаксический и семантический анализ лингвистических моделей, определение правил преобразования зафиксированной в них информации.

Использование логических средств в процессе формализации языка позволяет приводить языковые конструкции к понятиям логического суждения и рассуждения, которые считаются адекватными естественным. Формальные рассуждения строятся с помощью правил, не зависимых от предметной области, что делает процесс рассуждений понятным и проверяемым.

Кроме того, результаты формальных рассуждений могут быть переведены в определенное математическое исчисление. В свою очередь, логические суждения представляют собой такие конструкции языка, о которых можно судить: истинны они или нет.

Применение логико-лингвистических моделей и экстралингвистического метода в представленном диссертационном исследовании обоснованы тем, что поведение объекта - системы оперативного управления органами внутренних дел, выражается в терминах ограниченного естественного языка и может быть представлено с помощью лингвистических переменных (ЛП).

Лингвистические средства являются интерфейсом между естественным языком и формальными поисковыми механизмами ИПС. Лингвистическое обеспечение включает в себя:

языки представления данных в ИПС, которые определяют архитектуру, синтаксис и семантику представлении информации в базах данных ИПС;

информационно-поисковый язык (ИПЯ), то есть язык, на котором обращается пользователь к системе, чтобы получить интересующий его отклик.

Информационно-поисковый язык - это формализованная семантическая система, предназначенная для выражения смыслового содержания документов и информационных запросов с целью отыскания в массиве таких документов, которые отвечают на поставленный информационный запрос. Он является абстрактным языком и состоит из «списка элементарных символов (знаков), правил образования (устанавливающих, какие комбинации знаков допускаются), правил преобразования (устанавливающих, какие допускаются преобразования выражений с целью получения логического вывода) и правил интерпретации (устанавливающих, какой смысл надлежит приписывать выражениям,

составленным по правилам образования)»

Для целей информационного поиска используются три типа ИПЯ: классификационный, словарного типа, дескрипторного типа. В настоящее время дескрипторные языки получили наибольшее распространение.

Дескрипторные ИПЯ реализуют идею координатного или ассоциативного индексирования. Смысловое содержание документа можно достаточно полно выразить некоторым списком так называемых ключевых слов, в качестве которых выступают слова, явно или в скрытом виде содержащиеся в индексируемом тексте. Существенной проблемой при этом является однозначность понимания ключевых слов. ИПС считается эффективной в том случае, если обеспечено единообразное индексирование одинаковых по содержанию информационных запросов и документов. Особенно это касается координатного индексирования с использованием слов и словосочетаний естественного языка, которому свойственны такие явления, как синонимия, омонимия и полисемия. Единообразным координатное индексирование будет лишь в том случае, если установлен определенный контроль употребления слов и словосочетаний естественного языка, выступающих в качестве ключевых для устранения явлений синонимии, омонимии и полисемии

Одним из вариантов координатного индексирования является так называемое «глубокое индексирование», при котором проводится анализ индексируемого документа специалистом данной конкретной предметной области, способным выделить наиболее важные, редко встречающиеся ключевые слова. Таким образом, глубина координатного индексирования определяется не количеством ключевых слов, включенных в поисковый образ документа (ПОД), а зависит от наличия в нем специфических ключевых слов.2

Основными проблемами координатного индексирования являются: ложная координация, неполная координация, синонимия, полисемия, омонимия, неоднозначность родовидовых связей между ключевыми словами, ложные синтагматические связи, невыдача документов, близких по смыслу информационному запросу.

На рисунке 4 представлены отношения синонимов, омонимов и полисемантических слов обозначаемым ими предметам или выражаемым ими понятиям.

Большое внимание в современных полнотекстовых ИПС уделяется морфологическому анализу, т.е. автоматическим средствам обработки отдельных слов, как в текстах исходных документов, так и в запросах пользователей. При построении базы данных из массива документов формируется индекс из всех слов, входящих в эти документы, иногда за исключением так называемой «незначащей лексики» - предлогов, артиклей, частиц и т.д., представляющий собой стоп-словарь системы. Построенный словарный индекс системы во многих ИПС лемматизируется, т.е. все слова приводятся к каноническим формам, например, существительные - к именительному падежу, глаголы - к инфинитивной форме и т.д. Запросы пользователей также проходят лемматизацию.

Любая система анализа содержания документа, входящая в информационную систему, должна включать методы последовательной нормализации естественного языка, связанных с построением словарей определенного типа, к которым относятся:

словарь отрицаний, содержащий термины, использование которых запрещено для целей анализа содержания;

тезаурус или словарь синонимов, который для каждого входа (статьи) словаря определяет одну или больше синонимичных категорий или классов понятий;

словарь словосочетаний, используемых для определения наиболее часто встречающихся комбинаций слов;

иерархическая (древоподобная) организация терминов или понятий, подобная стандартной схеме библиотечной классификации, позволяющая найти для определенного термина как более широкие, так и более узкие понятия, двигаясь вверх или вниз по данной структуре.

Иной способ индексирования документов в информационно-поисковых системах обеспечивается при использовании специальных словарей- справочников, называемых тезаурусами или информационно-поисковыми тезаурусами (ИПТ). Термин «тезаурус» (от греческого «thesaurus» - сокровищница, запас, клад) в широком смысле используется для обозначения книги, содержащей собрание наименований понятий из определенных областей знаний.

Тезаурус используется как при вводе документов в информационно- поисковую систему, так и при формировании предписаний на поиск документов. Но прежде всего, тезаурус используется как средство контроля единообразного употребления слов и словосочетаний естественного языка, используемых для координатного индексирования документов и информационных запросов, поскольку является нормативным словарем ключевых слов по определенной тематике.

К тезаурусу предъявляется ряд требований: устранение синонимии и многозначности ключевых слов, указание базисных отношений между ключевыми словами, то есть отношений, существующих между этими словами независимо от контекста, в котором они употребляются.

В работе1 дается следующее определение: «Тезаурус - словарь, отображающий тематические связи между словами данного языка. Обычно тезаурус состоит из двух частей: совокупности рубрик и ключа. Каждая рубрика имеет заглавное слово и содержит все слова, непосредственно связанные по смыслу с заглавным словом. Это могут быть все слова, имеющие с заглавным почти одинаковое значение, или, кроме того, все слова с более широким или более узким значением, или слова, входящие в типичные сочетания с заглавным словом. Ключ - это список всех слов в алфавитном порядке с указанием номеров рубрик, в которые эти слова входят. Целесообразно рассматривать и более общее понятие тезауруса как списка объектов, предикатов и связей между ними в определенной семантической системе».

Автор работы1 считает, что «назначение ИПТ заключается в следующем:

1) дать лицу, производящему индексирование документов, …возможность индексировать (т.е. описывать содержащуюся в этих документах информацию более полно, на разных уровнях общения и в техническом смысле - с многих точек зрения);

2) позволять лицу, ведущему поиск информации, формулировать поисковое предписание в соответствии с объемом и степенью его непосредственных интересов, т.е. так, чтобы поисковое предписание содержало все термины словарного состава информационно-поискового языка, которые обладают нужным значением и специфичностью».

Использование тезауруса обладает также таким преимуществом, как то, что оно не требует дополнительного ввода информации от пользователя для уточнения или расширения запроса.

В настоящее время существуют различные методы построения тезаурусов. Рассмотрим их обзорно2:

Использование контролируемого словаря, поддерживаемого редакторами. Для каждого понятия в этом словаре есть канонический термин.

Построение тезауруса по словникам предметных указателей применяется тогда, когда имеется хорошо отработанный предметный словник, и надо провести координатное индексирование массива документов, ранее проиндексированных предметными заголовками. Примерами являются тематические рубрики в каталогах традиционных библиотек, таких как Библиотека Конгресса США (Library of Congress Subject Headings), десятичная система классификации Дьюи (в России - УДК). Метод характерен для предметных областей с большим количеством источников информации, например для областей медицины и биологии существует система UMLS(Unified Medical Language System).

Тезаурус, создаваемый вручную. Канонический термин не назначается, редакторы создают множества синонимов для понятий. Эмпирическое построение тезауруса проводится методом свободного индексирования, то есть путем описания предметного содержания документов списками слов и выражений, которые составитель тезауруса считает наиболее подходящими. При этом выбираемые для индексирования документа слова могут и не содержаться в тексте этого документа. После накопления необходимого лексического минимума проводится его лексикографическая обработка. Затем описываются ассоциативные отношения терминов и их сочетания для расширения базисных отношений. Примером может являться система Statistics Canada, которая поддерживает словарь предпочтительных терминов и синонимов по различным отраслям, подлежащим обязательной статистической обработке. Этот тезаурус поддерживает два языка - английский и французский.

Автоматически создаваемый тезаурус. Для такого тезауруса используются статистические данные о совместной встречаемости слов в документах предметной области.

При формировании тезауруса важно знать, в каком примерно массиве документов будет осуществляться информационный поиск, кто и в каких целях будет пользоваться тезаурусом, каковы требования к точности, полноте и скорости информационного поиска.

Ряд авторов 1 2 , рассматривая операции с запросами к сетевым ИПС на основе тезауруса, предлагают следующие подходы:

1. Тезаурус является компонентой автономной метапоисковой машины, т.е. не привязан к конкретной ИПС;

2. Тезаурус описывает терминологию узкой предметной области;

3. Основной элемент тезауруса - концепция (а не отдельный термин);

4. Концепции тезауруса связаны отношениями, семантика которых может быть различной (набор типов отношений не фиксируется).

При создании тезаурусов возникает проблема устранения синонимии ключевых слов. Синонимия присуща любому естественному языку и выражается в том, что для обозначения одного и того же предмета, понятия или действия может употребляться не одно, а два и более разных имен. Для устранения синонимии в ИПЯ используется принцип условной эквивалентности, если они обозначают близкие понятия и предметы. Типичным представителем группы условной эквивалентности определен дескриптор, с помощью которого в дальнейшем формируется поисковый образ документа (ПОД), поисковый массив и поисковый образ запроса пользователя (ПОЗ).

Устранение омонимии в ИПЯ производится при построении тезауруса лексикографически, т.е. при помощи системы указательных меток. Кроме того, омонимия частично устраняется в процессе группировки отобранных для тезауруса ключевых слов. Полисемия также устраняется лексикографически.

При построении тезаурусов необходимо учитывать и наличие родовидовых и ассоциативных отношений между дескрипторами. В ИПЯ всегда есть дескрипторы, которые полностью включают в себя один или несколько других дескрипторов, выражающих более узкие понятия. При формировании тезаурусов родовидовые отношения изображают в виде графических схем - деревьев. Классификационное дерево строится для каждого дескриптора ИПЯ, это помогает устранить неоднозначность отдельных дескрипторов, улучшить словарный состав ИПЯ.

Парадигматические отношения между словами в основном проявляются в виде ассоциаций, вызываемых этими словами. Считается полезным дополнить поисковый образ документа не только родовыми и видовыми дескрипторами, но и дескрипторами, которые связаны с основными дескрипторами ассоциативными отношениями, для чего к основному дескриптору «привязываются» несколько добавочных дескрипторов, связанных с ними ассоциативными отношениями. В каждом языке слово окружено сетью сложных ассоциаций, образуя так называемое ассоциативное поле. При построении тезауруса из множества ассоциативных отношений выбираются наиболее существенные, затем из этого множества выбирается подмножество отношений, принадлежащих к категории парадигматических. Парадигматическим отношениям соответствуют лишь такие виды ассоциаций, члены которых связаны между собой семантическими (смысловыми) отношениями. В тезаурусе парадигматические отношения между дескрипторами выражаются лексикографически, при помощи таблиц, аналитически и графически.

Парадигматические связи, существующие между дескрипторами, так называемые, аналитические или базисные, обеспечивают наибольшую эффективность информационного поиска.

Важной процедурой контроля правильности установления тезаурусных связей может оказаться рубрицирование текстов по некоторому рубрикатору. Рубрицирование можно производить по любому рубрикатору, относящемуся к предметной области. Рубрикатор не является составной частью тезауруса, однако его рубрики можно описать посредством дескрипторов тезауруса, и наоборот, дескрипторам тезауруса можно поставить в соответствие рубрики рубрикатора или их числовые обозначения. Иерархическая организованность тезауруса позволяет не собирать для каждой рубрики все ее дескрипторы, а найти в тезаурусе куст дескрипторов, соответствующий данной рубрике, и установить связь между рубрикой и наивысшим дескриптором в иерархии дескрипторного куста. Такой дескриптор называется опорным дескриптором рубрики. Одной рубрике может соответствовать несколько опорных дескрипторов. В результате для каждого дескриптора создается список соответствующих ему рубрик. Дескриптор может не иметь рубрик. Просмотр результатов такого рубрицирования дает возможность увидеть как ошибки привязки опорных дескрипторов к рубрикам, так и ошибки в тезаурусных связях.1

Структура заполнения тезауруса регламентируется стандартами ISO 2788, ISO 5964, ГОСТ 7.25-2001 (для одноязычных тезаурусов) и ГОСТ 7.24-2007 (для многоязычных тезаурусов) 2 3.

Основными документами, регламентирующим формат представления тезауруса, являются стандарты ISO 2788:1986 для описания одноязычных тезаурусов, и ISO 5964:1985 - для многоязычных. Стандарт ISO 2788:1986 определяет тезаурус, как набор терминов, связанных между собой соответствующими связями (отношениями). Структура многоязычных тезаурусов регламентируется стандартом ISO 5964:1985. В нем определены связи между эквивалентными терминами на разных языках. Американский стандарт ANSI/NISO Z39.19-1993 расширяет и уточняет стандарт ISO 2788:1986 для одноязычных тезаурусов, а также накладывает ряд дополнительных ограничений на структуру тезауруса. Стандарт ANSI/NISO Z39.19-1993 помимо структуры регламентирует также и другие аспекты создания, представления и поддержки тезаурусов.

Российские стандарты по подготовке тезаурусов ГОСТ 7.25-2001 и ГОСТ 7.24-2007 созданы на базе стандартов ISO и ANSI.

ГОСТ 7.25-2001 «Тезаурус информационно-поисковый одноязычный» устанавливает правила разработки, структуру, состав и форму представления информационных тезаурусов, ориентированных на использование лексики русского языка и разрабатываемых в рамках автоматизированных информационных систем и сетей научно-технической информации. ГОСТ 7.25- 2001 также как и ANSI/NISO Z39.19-1993, расширяет и уточняет стандарт ISO 2788:1986 для одноязычных тезаурусов.

Стандарт опирается на имеющиеся российские стандарты в области информационной деятельности 1 2 3 4 5 6 . В стандарте информационно-поисковый тезаурус (ИПТ) по своему построению подразделяют на два типа: тезаурусы, выделяющие среди своих лексических единиц дескрипторы и аскрипторы; тезаурусы, все лексические единицы которых являются дескрипторами. Стандарт определяет следующие этапы построения тезауруса:

определение тематического охвата ИПТ; сбор массива лексических единиц; формирование словаря ИПТ;

построение словарных статей и указателей; оформление ИПТ;

экспертиза и регистрация ИПТ.

В стандарте подчеркивается, что определение тематического охвата ИПТ осуществляется путем анализа информационной потребности абонентов (потребителей). В словарь ИПТ могут быть включены такие лексические единицы, как одиночные слова (существительные, прилагательные, глаголы, наречия) именные словосочетания; лексически значимые компоненты сложных слов; сокращения слов и словосочетаний.

При построении словарных статей лексическим единицам (ЛЕ) приписывают определенные ссылки. Ссылки отмечают связи данной лексической единицы с другими и являются результатом выполнения следующих операций: устранения неоднозначности лексической единицы; установления отношений эквивалентности; выбора дескриптора, представляющего класс эквивалентности; установления иерархических и ассоциативных отношений дескрипторов.

Устанавливаются иерархические и ассоциативные отношения лексических единиц предметной области: парадигматические отношения, отражающие лексико-семантические связи между понятиями, выражаемыми дескрипторами. Связь указывают путем внесения в дескрипторную статью ссылки, включающей обозначение согласно таблице ссылок и связанный дескриптор. Основными типами связей являются: род - вид; часть - целое; причина - следствие; сырье - продукт; административная иерархия; процесс - объект; функциональное сходство; процесс - субъект; свойство - носитель свойства; антонимия.

Систематический указатель является перечнем дескрипторов, сгруппированных согласно принятой в ИПТ рубрикации. Строятся иерархические указатели, представляющие собой перечень списков дескрипторов, при этом каждый список начинается также с дескриптора, не имеющего вышестоящих. После каждого дескриптора приводятся непосредственно нижестоящие дескрипторы с указанием их уровня в иерархии путем применения нумерации либо графического обозначения уровня. Формируются пермутационные указатели, предназначенные для поиска лексических единиц по отдельным словам, входящим в текст лексической единицы. Пермутационный указатель представляет собой перечень списков, каждый из которых соответствует одному из знаменательных слов в составе лексической единицы и включает все лексические единицы, содержащие это знаменательное слово. Перечень списков упорядочен по алфавиту знаменательных слов, а внутри списки упорядочены по тексту лексической единицы ГОСТ 7.24-2007 «Система стандартов по информации, библиотечному и издательскому делу. Тезаурус информационно-поисковый многоязычный. Состав, структура и основные требования к построению» распространяется на многоязычные информационно-поисковые тезаурусы (МИПТ) и устанавливает состав, структуру и основные требования к построению МИПТ, применяемым в информационно-поисковых системах.

ГОСТ 7.24-2007 определяет многоязычный информационно-поисковый тезаурус как согласованную совокупность одноязычных информационно- поисковых тезаурусов, содержащую эквивалентные дескрипторы на языках - компонентах МИПТ, необходимую и достаточную для межъязыкового обмена, и включающую средства для указания их эквивалентности. Одноязычная версия МИПТ - каждый из одноязычных информационно-поисковых тезаурусов, входящих в состав МИПТ.

Для подготовки тезауруса необходимо большое количество лексических единиц. Разработчику тезауруса необходимо найти коллекции документов по интересующей предметной области, причем массивы документов должны быть политематическими в рамках данной области.

Согласно 2 назначение тезауруса заключается в следующем:

– служить руководством для перевода текстов с естественного языка на искусственный, специально сформированный для определенной предметной области дескрипторный ИПЯ путем замены ключевых слов их однозначно установленными образами - соответствующими дескрипторами;

– обеспечивать возможность избыточного индексирования документов и/или информационных запросов с целью обеспечения большей полноты информационного поиска;

– быть пособием, которое бы помогало ищущему информацию специалисту находить правильные дескрипторы для выражения его информационной потребности.

В настоящее время считается, что основное назначение тезауруса - это формализация семантического содержания документов с целью обеспечения однозначного выражения их смыслового содержания, что, в свою очередь, обеспечивает высокую полноту и точность отбора релевантных источников и снижение информационного шума. Провайдеры сетевых баз данных игнорируют ценность контролируемых языков индексирования, не создают дорогостоящих, с их точки зрения, тезаурусов. Несмотря на то, что в распоряжении пользователей полнотекстовых информационных систем имеются многомиллионные массивы документов, по мнению многих исследователей, ни одна из известных поисковых машин не обеспечивает достаточную полноту поиска.

Устранение лексической неоднозначности смысловых понятий является одним из способов повышения эффективности информационного поиска. Основная масса пользователей формулирует свои запросы слишком широко, поэтому не получает высокорелевантной выдачи. Создание тезауруса, как части ИПС, получает все большую актуальность.

Подход, который чаще всего используется сегодня, основан на принципе автоматического построения поискового индекса системы на основе входящих в документальный массив слов. Этот подход не предполагает использование тезауруса и считается предпочтительным. Но, если этот подход можно было считать оправданным на начальном этапе развития полнотекстовых ИПС, поскольку хранение тезаурусов требовало значительных объемов памяти ЭВМ, то в настоящее время можно хранить тезаурусы любого объема. Объемы хранимых в настоящее время текстовых баз данных настолько велики, что их индексы намного превышают объемы тезаурусов. Это позволяет предположить, что в перспективе ИПС с тезаурусами займут доминирующее положение.

Сегодня тезаурусы находят ограниченное применение по причине того, что трудно построить тезаурус, который соответствовал бы тематическому многообразию индексируемой информации. Кроме того, массовому пользователю трудно освоить поисковые стратегии со сложными тезаурусами. Но необходимость создания тезаурусов отдельных предметных областей очевидна: универсальные тезаурусы и словари плохо покрывают богатую и специфическую терминологию научных дисциплин.

Важным элементом в системе информационного обеспечения управления органами внутренних дел является идентификация пользователей, процессов и устройств в едином информационном контуре, что определило одно из направлений диссертационного исследования как авторскую разработку методов идентификации на основе ортогональных преобразований с использованием модифицированного соискателем множества кусочно-постоянных ортогональных функций Уолша.

Заключение

1. В настоящее время процедура поиска в информационно-поисковых системах направлена на построение логики отбора релевантных источников на основе операции инвертирования предметных списков, что приводит в увеличению полноты и точности отбора релевантных источников, а также снижению информационного шума.

2. Использование поисковых систем в различных ориентированных на определенную тематику областях позволяет повысить эффективность поиска и приводит к построению фасетной классификации единого информационного контура системы управления органами внутренних дел, что обеспечивает многоаспектность отбора релевантных источников информации.

3. Одним из главных средств повышения эффективности информационно- поисковых систем является лингвистическое обеспечение, включая тезаурус, содержащий в себе основные лексические единицы для определенной предметной области.

4. Разработка фасетного тезауруса по предметным областям направлена на увеличение полноты и точности поиска релевантных источников и исключает тематическое рассеяние документальной информации.

5. Формирование тезауруса в области оперативного управления органами внутренних дел остается сложной и слабо проработанной в теоретическом и практическом аспекте задачей.

6. Неотъемлемой частью системы информационного обеспечения органов внутренних дел является разработка методов идентификации и аутентификации процессов, пользователей и устройств.

7. Дальнейшее исследование диссертационной работы направлено на построение поисковой системы инверсного принципа реализации фасетной классификации дескрипторного типа.

Литература

1. Д?мин Б.Е. Системный анализ: теория и приложение / Б.Е. Демин, С.А. Редкозубов, Б.В. Тарасов. Воронеж: Научная книга, 2008. 356 с.

2. Залманзон Л.А. Преобразование Фурье, Уолша, Хаара и их применение в управлении, связи и других областях / Л.А. Залманзон. М.: Наука, 1989. 371 с.

3. Исаев Г.Н. Управление качеством информационных систем / Г.Н. Исаев. М.: МИРЭА, 2003. 200 с.

4. Исаев Г.Н. Управление качеством информационных систем. Теоретико-методологические основания: монография / Г.Н. Исаев. М.: Наука, 2011. 279 с.

5. Казаков А.В. Системный анализ управления / А.В. Казаков. Барнаул: Алтайский ГТУ, 2002. 177 с.

6. Качмаж С. Теория ортогональных рядов / С. Качмаж, Г. Штейнгауз. М.: Наука, 1958. 508 с.

7. Козлов В.Н. Системный анализ, оптимизация и принятие решений / В.Н. Козлов. М.: Проспект, 2010. 437 с.

Размещено на Allbest.ru


Подобные документы

Работы в архивах красиво оформлены согласно требованиям ВУЗов и содержат рисунки, диаграммы, формулы и т.д.
PPT, PPTX и PDF-файлы представлены только в архивах.
Рекомендуем скачать работу.