Реализация методик восстановления пропущенных значений и структурирование неопределенностей во временных рядах защиты информации

Особенности и параметры процесса защиты информации. Оценка полноты и достоверности информации. Методы восстановления пропусков в массивах данных с использованием регрессионного моделирования. Методы структурирования данных в условиях неопределенности.

Рубрика Программирование, компьютеры и кибернетика
Вид курсовая работа
Язык русский
Дата добавления 13.07.2011
Размер файла 89,1 K

Отправить свою хорошую работу в базу знаний просто. Используйте форму, расположенную ниже

Студенты, аспиранты, молодые ученые, использующие базу знаний в своей учебе и работе, будут вам очень благодарны.

Размещено на http://www.allbest.ru/

34

Размещено на http://www.allbest.ru/

КУРСОВАЯ РАБОТА

по дисциплине «Криптографические протоколы»

на тему:

«РЕАЛИЗАЦИЯ МЕТОДИК ВОССТАНОВЛЕНИЯ ПРОПУЩЕННЫХ ЗНАЧЕНИЙ И СТРУКТУРИРОВАНИЕ НЕОПРЕДЕЛЕННОСТЕЙ ВО ВРЕМЕННЫХ РЯДАХ ЗАЩИТЫ ИНФОРМАЦИИ»

СОДЕРЖАНИЕ

ВВЕДЕНИЕ

1. ВИДЫ НЕОПРЕДЕЛЕННОСТЕЙ В ИСХОДНЫХ ДАННЫХ СИСТЕМ И ПРОЦЕССОВ ЗАЩИТЫ ИНФОРМАЦИИ

1.1 Понятие системы и процесса защиты информации

1.2 Полнота и достоверность исходных данных

1.3 Выводы по главе

2. МЕТОДЫ ВОССТАНОВЛЕНИЯ ПРОПУЩЕННЫХ ЗНАЧЕНИЙ И СТРУКТУРИРОВАНИЕ НЕОПРЕДЕЛЕННОСТЕЙ в ИСХОДНЫХ ДАННЫХ

2.1 Методы восстановления пропусков в массивах данных

2.2 Методы структурирования данных в условиях неопределенности

2.3 Выводы по главе

3. МЕТОДИКИ ВОССТАНОВЛЕНИЯ ПРОПУЩЕННЫХ ЗНАЧЕНИЙ И СТРУКТУРИРОВАНИЕ НЕОПРЕДЕЛЕННОСТЕЙ ВО ВРЕМЕННЫХ РЯДАХ ЗАЩИТЫ ИНФОРМАЦИИ

3.1 Методика восстановления пропусков ЕМ - оценивание

3.2 Методика восстановления пропусков с использованием регрессионного моделирования

3.3 Выводы по главе

ЗАКЛЮЧЕНИЕ

СПИСОК ИСПОЛЬЗУЕМЫХ ИСТОЧНИКОВ

ВВЕДЕНИЕ

При решении многих прикладных задач приходится сталкиваться с неопределенностью в исходных данных. Как правило, она вызвана ошибками измерений, округления, приближенным представлением и распределенным характером самого исследуемого процесса и т.д. Учёт таких неопределенностей всегда был важен в тех разделах научно-прикладных исследований, которые в качестве исходных данных используют измерения, и в настоящее время их учёт остается актуальным.

Объект исследования - системы и процессы защиты информации.

Предмет исследования - условия неполноты и недостоверности исходных данных в показателях процессов и систем защиты информации.

Целью работы является реализация методик восстановления пропущенных значений и структурирование неопределенностей во временных рядах защиты информации.

Задачи курсовой работы:

- привести обзор возможных неопределенностей в исходных данных систем и процессов защиты информации;

- исследовать методы восстановления пропущенных значений и структурирования неопределенностей в исходных данных;

- предложить методики восстановления пропущенных значений и структурирование неопределенностей во временных рядах защиты информации.

1. ВИДЫ НЕОПРЕДЕЛЕННОСТЕЙ В ИСХОДНЫХ ДАННЫХ СИСТЕМ И ПРОЦЕССОВ ЗАЩИТЫ ИНФОРМАЦИИ

1.1 Понятие системы и процесса защиты информации

Задачи защиты информации [1] характеризуются следующими основными особенностями:

- наличием большого числа факторов, влияющих на эффективность решения задачи;

- отсутствием количественных достоверных исходных данных об этих факторах;

- отсутствием формальных (математических) методов получения оптимальных результатов решения по совокупности исходных данных.

Решение произвольных задач производится на основе моделей исследуемых объектов или процессов. Универсальной моделью любого объекта является представление его в виде системы.

Система - совокупность элементов и связей между ними, обладающая определенной целостностью.

Процесс - совокупность состояний системы, упорядоченных по изменению какого-либо параметра, определяющего свойства системы.

Система защиты информации - совокупность взаимосвязанных элементов, функционирование которых направлено на обеспечение безопасности информации.

Элементами системы защиты информации являются люди, инженерные конструкции и технические средства, обеспечивающие защиту информации независимо от их принадлежности к другим системам.

Система защиты информации [2] описывается следующими параметрами:

1) цели и задачи (конкретизированные в пространстве и во времени цели);

2) входы и выходы системы;

3) процессы внутри системы, обеспечивающие преобразование входов в выходы.

Цели представляют собой ожидаемые результаты функционирования системы защиты информации.

Задачи - необходимые действия для достижения системой поставленных целей.

Возможность решения задач зависит от ресурса, выделяемого на защиту информации. Ресурс включает в себя людей, решающих задачи защиты информации, финансовые, технические и другие средства, расходуемые на защиту информации.

Входами системы защиты информации являются угрозы информации.

Выходами - меры, которые нужно применить для предотвращения угроз или снижение их до требуемого уровня.

Процесс образуют мероприятия, действия и технологии, определяющие меры защиты информации. Для выбора оптимальных мер защиты из множества известных необходимо иметь показатели эффективности.

На рисунке 1 приведена схема этих параметров.

Рисунок 1 - Параметры системы защиты информации

Решение задачи защиты информации с точки зрения системного подхода можно сформулировать как трансформацию существующей системы, не обеспечивающей требуемый уровень защищенности, в систему с заданным уровнем безопасности информации.

Основным методом исследования систем защиты информации является моделирование. Моделирование предусматривает создание модели и ее исследование (анализ). Описание или физический аналог любого объекта, в том числе системы защиты информации и ее элементов, создаваемые для определения и исследования свойств объекта, представляют собой его модель. В модели учитываются существенные для решаемой задачи элементы, связи и свойства изучаемого объекта.

Различают вербальные, физические и математические модели и соответствующее моделирование [3].

Вербальная модель описывает объект на национальном и профессиональных языках. Человек постоянно создает вербальные модели его окружающей среды и руководствуется ими при приятии решений. Чем точнее модель отображает мир, тем эффективнее при прочих равных условиях деятельность человека. На естественном или профессиональном языке можно описать любой объект или явление. Сложные модели прошлой, настоящей, будущей жизни людей создают писатели. Но вербальные модели позволяют анализировать связи между ее элементами лишь на качественном уровне.

Физическая модель представляет материальный аналог реального объекта, который можно подвергать в ходе анализа различным воздействиям и получать количественные соотношения между этими воздействиями и результатами. Часто в качестве физических моделей исследуют уменьшенные копии крупных объектов, для изучения которых отсутствует инструментарий. Модели самолетов и автомобилей продувают в аэродинамических трубах, макеты домов для сейсмических районов испытывают на вибростендах и т.д. Но возможности физического моделирования объектов защиты и угроз ограничены, так как трудно и дорого создать физические аналоги реальных объектов. Действительно, для того, чтобы получить физическую модель канала утечки, необходимо воспроизвести его элементы, в том числе среду, а также априори неизвестные средства и действия злоумышленника.

По мере развития вычислительной математики и техники расширяется сфера применения математического моделирования. Математическое моделирование предусматривает создание и исследование математических моделей реальных объектов и процессов. Математические модели могут разрабатываться в виде аналитических зависимостей выходов системы от входов, уравнений для моделирования динамических процессов в системе, статистических характеристик реакций системы на воздействия случайных факторов. Математическое моделирование позволяет наиболее экономно и глубоко исследовать сложные объекты, чего нельзя добиться с помощью вербального моделирования или что чрезмерно дорого при физическом моделировании. Возможности математического моделирования ограничиваются уровнем формализации описания объекта и степенью адекватности.

Для моделирования сложных систем все шире и шире применяется метод математического моделирования, называемый имитационным моделированием. Оно предполагает определение реакции модели системы на внешние воздействия, которые генерирует ЭВМ в виде случайных чисел. Статистические характеристики (математическое ожидание, дисперсия, вид и параметры распределения) этих случайных чисел должны с приемлемой точностью соответствовать характеристикам реальных воздействий. Функционирование системы при случайных внешних воздействиях описывается в виде алгоритма действий системы и их характеристик в ответ на каждое воздействие на входе. Таким образом имитируется работа сложной системы в реальных условиях. Путем статистической обработки выходных результатов при достаточно большой выборке входных воздействий получаются достоверные оценки работы системы. Например, достаточно объективная оценка эффективности системы защиты информации при многообразии действий злоумышленников, которые с точки зрения службы безопасности носят случайный характер, возможна на основе имитационного моделирования системы защиты.

Другое перспективное направление математического моделирования, которое представляет интерес для моделирования объектов защиты и угроз информации - компьютерные деловые игры. Компьютерные деловые игры - аналог деловых игр людей, применяемый для решения проблем в организационных структурах. деловая игра имитирует процесс принятия решения в сложных условиях недостаточности достоверной информации людьми, играющими роль определенных должностных лиц. Участниками компьютерной игры являются два человека или компьютер и человек. Причем за сотрудника службы выступает человек, а злоумышленника - компьютер или человек. Например, злоумышленник - компьютер устанавливает в случайном месте закладное устройство, а другой игрок - человек производит поиск закладного устройства с помощью различных выбранных средств по показаниям виртуальных приборов моделей этих средств.

В чистом виде каждый вид моделирования используется редко. Как правило, применяются комбинации вербального, физического и математического моделирования. С вербального моделирования начинается сам процесс моделирования, так как нельзя создать физические или математические модели, не имея образного представления об объекте и его словесного описания. Если есть возможность исследовать свойства объекта на физической модели, то наиболее точные результаты обеспечиваются при физическом моделировании.

Моделирование объектов защиты предусматривает определение источников с защищаемой информацией и разработку моделей материальных объектов защиты. К объектам защиты относятся источники защищаемой информации и контролируемые зоны, в которых находятся эти источники.

В результате этого этапа определяются:

1) модели объектов защиты с указанием всех источников информации с описанием факторов, влияющих на их безопасность;

2) цена защищаемой информации каждого -го источника.

На основе полученных результатов на этапе моделирования угроз выявляются угрозы безопасности информации, производится оценка ожидаемого от их реализации потенциального ущерба и ранжирование угроз по потенциальному ущербу. При моделировании угроз определяются риск (вероятность) угрозы и ущерб в случае ее реализации.

1.2 Полнота и достоверность исходных данных

Полнота представляет собой показатель, характеризующий достаточность информации для решения соответствующих задач. Поэтому, чтобы иметь возможность определять данный показатель, необходимо для каждой задачи или группы задач заблаговременно составить перечень сведений, которые требуются для их решения. Для представления таких сведений удобно воспользоваться так называемыми объектно-характеристическими таблицами (ОХТ). ОХТ - это двухмерная матрица, по строкам которой приведен перечень наименований объектов, процессов или явлений, входящих в круг интересов соответствующей задачи, а по столбцам - наименования их характеристик (параметров), необходимых для решения задачи.

Значения характеристик при этом будут располагаться на пересечении соответствующих строк и столбцов. Совокупность всех ОХТ, необходимых для обеспечения решения всех задач объекта, называется его информационным кадастром [1].

Для оценки полноты информации часто используют следующую методику.

Обозначим через элемент, находящийся в -й строке и -м столбце интересующего нас компонента соответствующей ОХТ, причем:

Тогда в качестве коэффициента полноты информации в данной ОХТ можно принять величину:

,

где - число строк, а - число столбцов ОХТ.

Однако при этом не учитывается важность (значимость) различных элементов. В целях устранения этого недостатка положим, что есть коэффициент важности элемента -й строки и -го столбца. Тогда очевидно, в качестве меры взвешенной полноты информации в рассматриваемой ОХТ можно принять величину:

.

Достоверность определяется как «уровень разумной уверенности в истинности некоего высказывания, который удовлетворяет некоторым правилам непротиворечивости и в соответствии с этими правилами формально может быть выражен числом» [4].

Известные подходы к решению проблемы оценки достоверности связаны с применением теоремы Байеса [4] и теории нечетких множеств [5], на основе которых в настоящее время разработаны и применяются в экспертных системах практические способы объединения свидетельств, регистрирующих качественные и логико-семантические связи между фрагментами базы данных.

Используя идею байесовского подхода, можно поставить вопрос о достоверности фрагментов информационной базы данных в более общем плане, рассматривая любой ее фрагмент как гипотезу, а фрагменты с которыми он связан, как свидетельства относительно фрагмента-гипотезы. Под фрагментом информационной базы данных понимают часть содержания или структуры, обладающую свойством дискретности и независимости, т.е. некоторую совокупность данных или высказываний, имеющую самостоятельный смысл.

Достоверность (Д) фрагмента поступающего в информационную базу данных, зависит от достоверности источника информации и методики ее получения. Каждый вновь поступающий в информационную базу данных фрагмент (НФЗ - новый фрагмент знаний) есть пара:

,

где - значение фрагмента; - достоверность информации.

1.3 Выводы по главе

В главе приведены понятия процесса и системы защиты информации. Процесс - совокупность состояний системы, упорядоченных по изменению какого-либо параметра, определяющего свойства системы. Система защиты информации - совокупность взаимосвязанных элементов, функционирование которых направлено на обеспечение безопасности информации. При этом элементами системы защиты информации являются люди, инженерные конструкции и технические средства, обеспечивающие защиту информации независимо от их принадлежности к другим системам. Кроме того приведены понятия полноты и достоверности исходных данных.

2. МЕТОДЫ ВОССТАНОВЛЕНИЯ ПРОПУЩЕННЫХ ЗНАЧЕНИЙ И СТРУКТУРИРОВАНИЕ НЕОПРЕДЕЛЕННОСТЕЙ ВО ВРЕМЕННЫХ РЯДАХ

2.1 Исследование методов восстановления пропусков в массивах данных

С проблемой обработки пропусков в массивах данных приходится сталкиваться при проведении разнообразных социологических, экономических и статистических исследований [6]. Традиционными причинами, приводящими к появлению пропусков, являются невозможность получения или обработки, искажение или сокрытие информации. В результате на вход программ анализа собранных данных поступают неполные сведения.

Самым простым решением обработки данных является исключение некомплектных наблюдений, содержащих пропуски, и дальнейший анализ полученных таким образом "полных" данных. Понятно, что такой подход приводит к сильному различию статистических выводов, сделанных при наличии в данных пропусков и при их отсутствии.

Поэтому более перспективным является иной путь - заполнение пропусков перед анализом фактических данных. Можно выделить следующие преимущества данного подхода: ясное представление структуры данных; вычисление необходимых итоговых значений; уверенная интерпретация результатов анализа, так как можно опираться на традиционные характеристики и суммарные значения.

Сегодня создано множество методов восстановления пропусков, однако единая методология обработки подобных данных отсутствует, несмотря на ее необходимость.

Основной задачей данной работы является сравнительный анализ существующих методов восстановления пропущенных значений в массивах (рядах, таблицах) данных, в том числе с практической проверкой восстанавливающей способности наиболее известных алгоритмов.

Для решения поставленной задачи использовалось изучение литературных источников и компьютерное моделирование ряда алгоритмов (замена пропуска общим средним, замена пропуска средним из ближайших, метод сплайн-интерполяции, Zet-алгоритм) с анализом их эффективности для реальных массивов данных.

Поясним постановку задачи предсказания (восстановления) значений пропущенных элементов на примере обработки таблицы размером не содержащей пропусков [7].

Пусть в нашем распоряжении имеется набор различных методов (алгоритмов) , предназначенных для предсказания значений пропущенных элементов. Закроем в таблице известный элемент , стоящий на пересечении строки и столбца , и предскажем его с помощью всех методов поочередно. Каждый метод предскажет свое значение , при этом относительная ошибка предсказания будет определена как

.

Восстановим в таблице элемент , уберем элемент и повторим процедуру, получив при этом относительную ошибку . Проделав это по очереди со всеми элементами таблицы и просуммировав обнаруженные ошибки, получаем величину относительных ошибок для каждого метода. Наилучшим из них естественно считать такой метод , который дает минимальную сумму ошибок.

Методы из набора могут отличаться друг от друга лежащими в их основании эвристическими предположениями (гипотезами). Возможность использования методов разной степени сложности связана с тем, насколько простым или сложным является механизм, согласно которому данные оказываются пропущенными. Используя терминологию, предложенную в [1], будем называть пропуски в данных полностью случайными (data are missing completely at random - MCAR), если условная вероятность ( пропущено/прочие ) не зависит ни от , ни от прочих (то есть эта вероятность постоянна для всех наблюдений, и наблюдаемые являются случайной подвыборкой тех , которые должны были получиться в эксперименте). Пропуски в данных называются случайными (missing at random - MAR), если вероятность ( пропущено/прочие ) не зависит от , но может зависеть от других X. Оказывается, что в этих случаях механизм пропусков несущественен (ignorable), и к данным применимы вариации методов восстановления пропусков. Наконец, если ( пропущено/прочие ) зависит от самого , то механизм пропусков является существенным (non-ignorable), и для корректного анализа данных необходимо знать этот механизм. Введенные понятия относятся к отдельным переменным, и в пределах одной и той же базы данных можно, в принципе, наблюдать все приведенные варианты. Можно построить тесты, отличающие MAR от MCAR, однако по данным невозможно отличить, являются ли они MAR, или же механизм пропусков существенен.

Характеристика известных методов восстановления пропусков по литературным данным. Первый возможный подход к обработке данных с пропусками - это просто исключение некомплектных объектов. Данный метод легко реализуется, но необходимым условием его применения является следование данных требованию MCAR. Кроме того, необходимо, чтобы количество пропусков было небольшим, иначе происходят сильные смещения, кроме того, как показывает практика, данный метод не очень эффективен.

Следующим подходом, реализованным в большом числе алгоритмов, является подход с заполнением пропусков. Наряду с очевидными преимуществами данного подхода ему присущи недостатки: «...Опасность этого подхода в том, что он не позволяет отличать ситуации, где задача не очень трудна и может быть корректно решена таким способом, от ситуаций, где обычные оценки по реальным и подставленным данным сильно смещены» [6].

Выделяют следующие два принципиальных недостатка данного подхода.

1. Как правило, параметры для алгоритма заполнения пропусков вычисляются по присутствующим данным, что вносит зависимость между наблюдениями. Конечно, такой искусственной зависимости не возникает, если проводится заполнение константой или случайными значениями, не зависящими от присутствующих наблюдений в выборке, или методом подстановки без подбора. Но на практике эти методы представляют малую ценность. Зависимости можно также избежать, разделяя исходную выборку на две подвыборки и вычисляя подстановки (например средневыборочные значения) для анализируемой подвыборки по значениям наблюдений во второй подвыборке. При таком подходе приходится жертвовать частью информации, чтобы заполнить пропущенные значения.

2. Распределение данных после заполнения будет отличаться от истинного, даже если пренебречь зависимостью, указанной выше. Этот факт особенно нагляден для простых методов заполнения (средневыборочных, по регрессии и т.п.). Различные варианты данных методов заполнения приведут к смеси истинного и вырожденных распределений с вырождением на гиперплоскостях, на которых располагаются предсказываемые значения.

Отметим, что анализ подобных полных данных стандартными методами неправомерен и приводит к таким недостаткам, как несостоятельность и смещенность оценок параметров. Однако методы данной группы широко применяются. Приведем особенности наиболее известных методов глобального заполнения (то есть заполнения с использованием данных всей выборки) [6 - 9].

Заполнение средними (средним по всей выборке или средними по группам) - применение имеет смысл только в случае следования данных условию MAR, данная группа методов легко реализуема; недостатки - искажение распределения данных, уменьшение дисперсии.

Методы заполнения с подбором - подобны методам заполнения средними, легко реализуемы, кроме того, при применении данных методов больше разброс дисперсии предсказанных значений пропусков, не искажается распределение. Недостаток - выявление распределения обрабатываемой генеральной совокупности данных по полученной выборке комплектных данных.

Заполнение по регрессии. В основу данной группы методов положены хорошо известные алгоритмы регрессионного анализа [10]. Из условий применения данного метода можно выделить требование о следовании данных условию MAR (хотя для частных случаев возможно применение более слабых требований) и требования, относящиеся к выполнению предпосылок регрессионного анализа. Недостатки подобных методов очевидны: качество предсказания (восстановления пропусков) напрямую зависит от успешного выбора взятой за основу регрессионной модели.

Метод сплайн-интерполяции - обоснованный математически метод интерполяции, показывающий хорошие результаты. Для успешного применения необходимо, чтобы данные следовали условию MAR. Недостатки метода следуют из самой его идеи. Например, в случае восстановления группы пропусков, следующих подряд друг за другом, результат аппроксимации сплайном данной группы не всегда может дать оценки, приближающиеся с достаточной точностью к значениям, которые могли бы быть на месте пропусков.

Методы многократного заполнения. Основное их преимущество в том, что они преодолевают недостаток методов однократного заполнения в смысле большего разброса дисперсии оценки; посылки применимости данного метода полностью определяются используемыми методами формирования множества вариантов восстановления пропуска.

МП-оценивание (EM-алгоритм) - относится к категории методов моделирования [6]. Особенность данных методов - построение модели порождения пропусков с последующим получением выводов на основании функции правдоподобия, построенной при условии справедливости данной модели, с оцениванием параметров методами типа максимального правдоподобия. Отметим, что если другие методы восстановления пропусков требуют, чтобы данные отвечали условию MAR (или MCAR как более жесткому), то для данных методов возможно построение моделей, учитывающих конкретную специфику области, как следствие, возможна постановка более слабых условий к данным. Недостаток - необходимость построения модели порождения пропусков.

Использование методов факторного анализа [9]. Особенности метода: отсутствие требования априорного заполнения пропусков, необходимость в предварительной нормировке данных, наличие требований факторного анализа. В случае использования нелинейных моделей данных метод имеет очевидное преимущество по сравнению с регрессионными методами. В связи с большим количеством шагов алгоритма данному методу присуща некоторая трудоемкость реализации.

Использование методов кластерного анализа [11]. Особенность метода - его применение не опирается на какую-либо вероятностную модель, но при этом оценить его свойства в статистических терминах не представляется возможным. Однако данный метод обладает существенным достоинством, а именно, он позволяет указать предпочтительный порядок восстановления данных и выявить случаи, когда пропуски не могут быть восстановлены по имеющимся данным.

Локальные алгоритмы восстановления пропусков [7, 8]. Алгоритмы семейства Zet (Wanga), по сути, являются детально проработанной и апробированной технологией верификации экспериментальных данных, основанной на гипотезе их избыточности. Внешне они сходны с методом локального заполнения. Данные алгоритмы хорошо показали себя, но необходимость задания ряда важных параметров приводит к необходимости убедиться в правдоподобности восстановленных значений.

Существуют другие альтернативные подходы к восстановлению данных. В качестве примера отметим использование нейросетей [12]. Несмотря на некоторую эквивалентность моделей статистики и нейросетевых парадигм, трудно выявить явные преимущества и недостатки применения нейросетевых технологий для восстановления данных.

Практическое исследование восстанавливающей способности выбранных методов заполнения пропущенных значений было программно реализовано в системе Mathcad и частично в Microsoft Excel с тестированием на большом множестве реальных временных рядов с различной структурой пропусков (создаваемых в процессе исследования искусственно).

Итоговые результаты по исследовавшимся методам таковы.

1. Метод замены пропущенного значения общим средним из присутствующих элементов.

Данный метод был выбран для исследования в связи с тем, что это наиболее известный, простой способ восстановления пропусков, включенный как средство борьбы с ними в большинство статистических пакетов. Эксперименты показали полную несостоятельность данного метода даже на простых рядах данных.

2. Метод замены пропущенного значения средним из ближайших присутствующих элементов переменной.

информация массив восстановление неопределенность

Данный метод является эффективным развитием метода замены пропусков общим средним, и эксперименты показали хорошую точность метода в случае одиночных пропусков на достаточно гладких рядах данных. Благодаря простоте реализации можно даже рекомендовать использование данного метода в приведенных выше условиях, но только в них. Наличие в данных групповых пропусков или сильные флуктуации значений ряда сводят эффективность метода к нулю.

Таким образом, этот метод можно использовать только для восстановления одиночных пропусков в рядах данных.

3. Метод восстановления пропущенного значения сплайн-интерполяцией по присутствующим элементам.

Все эксперименты показали, что в случае наличия в данных одиночных пропусков настоящий метод показывает лучшие результаты восстановления среди всех методов независимо от сложности поведения ряда, за исключением, конечно, вырожденных случаев, в которых количество пропусков намного превышает количество существующих наблюдений.

Однако в случае групповых пропусков результаты применения данного метода оказались неожиданно сильно зависящими от структуры пропусков, особенно в случае большой протяженности группы. Причины подобной особенности этого алгоритма понятны: по сути, метод просто строит наилучшую аппроксимирующую поверхность для существующих наблюдений и не более того. Такие же особенности ряда, как периодичность, наличие линии тренда и т.п., никак не принимаются в расчет при восстановлении группового пропуска. Поэтому при применении данного метода возрастает степень участия исследователя в процессе восстановления пропусков, который должен не просто выполнить программу алгоритма, но и проконтролировать полученные результаты и, если необходимо, даже отменить их.

4. Метод восстановления пропущенного значения на основе использования Zet-алгоритма [6, 7].

Данный алгоритм интересен для исследования тем, что при восстановлении учитывает закономерности ряда, может работать как с одномерными рядами данных, так и с таблицами данных, состоящих из множества взаимосвязанных рядов, указывает случаи, в которых имеющихся данных недостаточно для восстановления пропусков. И действительно, эксперименты показали целесообразность применения Zet-алгоритма.

Так, в случае одиночных пропусков данный метод имеет несомненное преимущество перед простыми методами восстановления пропусков (общего среднего, среднего из ближайших) и несколько уступает методу сплайн-интерполяции. Однако в случае наличия в данных групповых пропусков качество восстановления пропущенных значений при помощи Zet-алгоритма лучше остальных рассматриваемых методов, причем результаты применения метода стабильны, учитывают закономерности исследуемого ряда, достаточно слабо зависят от структуры пропусков и иногда являются единственно достоверными по сравнению с результатами применения других методов. Особо следует отметить возможности этого метода при восстановлении групповых пропусков в таблицах данных. Ни один из остальных исследуемых методов не способен выполнить такую задачу с приемлемой точностью, в то время как Zet-алгоритм показывает хорошие результаты.

Конечно, у данного метода есть ограничения. Например, между данными должна прослеживаться причинно-следственная (вероятностная) связь, а количество существующих наблюдений, по которым восстанавливаются пропуски, не должно быть малым. Если данные сильно зашумлены и искажены, обладают большой долей пропусков, то результат восстановления, естественно, будет некорректен: здесь как нельзя более ясно работает правило "мусор на входе - мусор на выходе". Однако даже в такой ситуации описываемый алгоритм будет искать закономерности в присутствующих данных и осуществлять восстановление пропусков, в отличие от других методов, для которых в подобной ситуации пропуск заполняется совершенно фантастическими значениями.

Приведенные результаты отражают поставленную задачу исследований и, более того, позволяют предложить следующую, как представляется, новую и достаточно эффективную методику восстановления пропусков в массивах данных: сначала к одиночным пропускам применяется метод сплайн-интерполяции (хотя иногда достаточно применить метод заполнения средним из ближайших), затем к результирующему набору данных с восстановленными одиночными пропусками и незатронутыми групповыми пропусками применяется Zet-алгоритм.

2.2 Методы структурирования данных в условиях неопределенности

Многообразие, а зачастую и противоречивость различных требований к проектируемой системе или оптимизируемому объекту, неполнота информации, неточность исходных данных для используемых моделей неизбежно приводят к тому, что реальную задачу оптимизации приходится решать в условиях неопределенности. В настоящей монографии осуществлена попытка систематизировать существующие (классические и новейшие) методы структурирования данных, т.е. методы адекватного отражения, прогнозирования и принятия конкретных оценок или значений параметров для управленческих решений, относящихся к слабоформализованным эволюционным дискретным процессам и системам, а также предложить новый инструментарий для структурирования данных в условиях неопределенности.

Проблема неточности данных. В фундаментальном научном издании [13] отмечено, что даже для установившихся режимов той или иной системы соотношение между источниками ошибки в типичном случае выглядит следующим образом:

1) 82-84 % - из-за неточности исходных данных,

2) 14-15 % - из-за неточности математической модели,

3) 2-3 % - из-за неточности применяемого метода.

Ввиду такой большой доли погрешности исходных данных неизбежно возникает и погрешность в расчете целевой функции моделируемого процесса, что в реальной ситуации приводит к значительной зоне неопределенности при выборе оптимального режима работы системы. Отсюда появляется необходимость разработки методов, учитывающих неопределенность исходных данных при решении задач многоуровневого управления эволюционными процессами.

В классических работах, посвященных этой проблеме [14], предлагаются различные методы принятия решений в условиях больших ошибок во входных данных. Эти методы можно разделить на две основные группы:

- подавление влияния неточной информации с дальнейшим использованием обычных детерминированных алгоритмов;

- переход при наличии неточной информации на специальные алгоритмы (стохастические, нечеткие, интервальные).

Для первой группы характерным является применение различных методов фильтрации и сглаживания исходной информации, усреднения и взвешивания данных. Применяются также методы восстановления отсутствующих данных, интерполирования и экстраполирования, робастные алгоритмы.

К настоящему времени в адрес методов, основанных на методах первой группы, высказано немало обоснованных критических замечаний. Предварительная фильтрация данных, отсечение выбросов и сглаживание оставшихся данных приводят к неадекватности этих данных наблюдаемому процессу по следующим причинам:

- применение процедур сглаживания и отсечения может быть обоснованным только при непосредственном учете специфики наблюдаемого процесса;

- алгоритмы, используемые для реализации методов первой группы, являются достаточно сложными;

- говоря об адекватности допущений, положенных в основу методов первой группы, можно говорить об их эвристическом характере, т.е. отсутствии достаточно строгой обоснованности.

При использовании стохастических моделей возникает ряд принципиальных трудностей, связанных со сложностью получения плотностей распределения вероятностей для параметров модели. Чаще всего эти трудности порождаются известной проблемой, называемой «проблема малых выборок». Действительно, в реальных ситуациях чаще всего удается обеспечить лишь несколько десятков наблюдений оцениваемого параметра, в то время, как необходимым является количество порядка тысячи и более.

Судя по растущему количеству публикаций, посвященных обсуждаемой проблеме, все большее число исследователей склоняется к тому, что в реальном математическом моделировании наиболее целесообразным подходом можно считать представление исходных данных в виде нечетких множеств [5] или интервальных значений.

Проблема неопределенности цели. Можно считать несомненным тот факт, что в процессе моделирования сложной системы исследователь должен принимать во внимание не одну цель, а две или больше целей, которые в некотором смысле «равноправны», т.е. в каждой паре целей нет доминируемой и доминирующей. Описать их одним показателем (критерием) невозможно. Конструктору самолета, например, необходимо обеспечить не только безопасность пассажиров, но и минимальную стоимость перелета. Экономисту нужно построить такой план, чтобы «при минимуме затрат добиться максимума выпуска продукции» и т.п., причем, эти требования, как мы видим, часто противоречат друг другу.

Легко понять, что свести подобные многокритериальные задачи к точно поставленным задачам классического математического программирования нельзя в принципе. Этот вопрос выходит за рамки области деятельности исследователя в процессе построения математической модели и разработки метода нахождения наилучшего решения.

В условиях многокритериальности в выборе и принятии одного решения заложено противоречие, т.к обязательно найдутся решения, которые по некоторым критериям являются лучше выбранного. Следовательно, указанных противоречий можно избежать лишь в случае, если говорить о нахождении множества «подходящих» решений. Этот тезис первым достаточно четко сформулировал итальянский экономист Вильфредо Парето еще в 1904 году в форме так называемого принципа Парето. Согласно Парето, возможные решения следует искать среди неулучшаемых альтернатив, т.е. альтернатив, улучшение которых по одним критериям приводит к ухудшению по другим критериям. Принцип этот достаточно очевидный и очень важный с чисто прикладной точки зрения: он позволяет, во-первых, сжать множество альтернатив, во-вторых, он демонстрирует те потери, которые имеет оперирующая сторона по тем или иным показателям, стремясь улучшить какой-то определенный показатель.

К настоящему времени в рамках дискретной оптимизации можно говорить о самостоятельном направлении дискретного программирования для многокритериальных задач. Однако, пока не известно ни одного эффективного алгоритма решения какой-либо многокритериальной задачи с нечеткими данными.

В самом общем виде математическая постановка дискретной многокритериальной задачи состоит из описания условий, определяющих конечное или счетное множество допустимых решений и заданной на векторной целевой функции (ВЦФ)

(1)

критерии которой могут принимать вид

(2)

Если фиксированы все параметры ВЦФ (1) и система условий, определяющих МДР , то принято говорить об индивидуальной задаче.

Под математическим решением индивидуальной задачи дискретной многокритериальной оптимизации следует понимать нахождение того или иного множества альтернатив (МА). Из найденного МА впоследствии с помощью методов многокритериального выбора осуществляется выбор и принятие решения.

Перечислим наиболее известные типы МА.

- множество допустимых решений , которое рассматривается в качестве МА в случае, когда критерий выбора и принятия решения является очень сложным.

- паретовское множество , состоящее из всех паретовских оптимумов. Для данной индивидуальной задачи с ВЦФ (1) - (2), состоящей из максимизируемых критериев (в (2) ), решение называется паретовским оптимумом, если не существует такого элемента , который удовлетворяет неравенствам , , среди которых хотя бы одно является строгим. Эти неравенства заменяем на обратные, если в (1.2) значение .

- полное множество альтернатив , которое определяется как подмножество минимальной мощности и такое, что , . ПМА является обобщением понятия «оптимум», определенного для 1- критериальных, т.е. оптимизационных задач.

Для всякой индивидуальной задачи представленные выше МА образуют иерархически упорядоченную цепочку включений . При исследовании какой-либо дискретной многокритериальной задачи в качестве основной математической проблемы обычно рассматривается вопрос построения достаточно эффективного алгоритма нахождения требуемого МА этой задачи.

2.3 Выводы по главе

Глава посвящена исследованию методов восстановления пропущенных значений и структурирования неопределенностей во временных рядах. Рассмотрены следующие методы восстановления пропущенных значений: замена пропуска общим средним, замена пропуска средним из ближайших, метод сплайн-интерполяции, Zet-алгоритм. Под неопределенностью понимается: нечеткие множества, интервалы, временные ряды. В главе приведен обзор существующих методов структурирования неопределенностей.

3. МЕТОДИКИ ВОССТАНОВЛЕНИЯ ПРОПУЩЕННЫХ ЗНАЧЕНИЙ И СТРУКТУРИРОВАНИЕ НЕОПРЕДЕЛЕННОСТЕЙ ВО ВРЕМЕННЫХ РЯДАХ ЗАЩИТЫ ИНФОРМАЦИИ

3.1 Методика восстановления пропусков ЕМ - оценивание

Можно выделить 4 основные группы методов заполнения пропусков в больших массивах данных.

Простые алгоритмы - неитеративные алгоритмы, основанные на простых арифметических операциях, расстояниях между объектами, регрессионном моделировании. К ним относится заполнение пропусков средним арифметических, регрессионное моделирование пропусков, метод HotDeck и подбор в группе.

Сложные алгоритмы - итеративные алгоритмы, предполагающие оптимизацию некоторого функционала, отражающего точность расчета подставляемых на место пропуска значений. Их можно разделить на глобальные и локальные.

Глобальные алгоритмы - в оценивании (предсказании) каждого пропущенного значения участвуют все объекты рассматриваемой совокупности: метод Бартлета, ЕМ - оценивание и Resampling.

Локальные алгоритмы - в оценивании (предсказании) каждого пропущенного значения участвуют полные наблюдения, находящиеся в некоторой окрестности предсказываемого объекта. К данной группе относятся алгоритмы Zet и Zet Braid.

Подробно рассмотрим 2 из них: ЕМ -алгоритм и регрессионное заполнение пропусков.

ЕМ - оценивание

Метод максимизации ожиданий (ЕМ - expectation maximization), в некоторых источниках так же называемый ЕМ - оцениванием, позволяет не только восстанавливать пропущенные значения с использованием двухэтапного итеративного алгоритма, но и оценивать средние значения, ковариационные и корреляционные матрицы для количественных переменных.

ЕМ - алгоритм, в самом общем смысле представляет собой итерационную процедуру, предназначенную дл решения задач оптимизации некоторого функционала, через аналитический поиск экстремума целевой функции.

Этот алгоритм реализуется в 2 этапа.

Этап 1. На первом этапе по совокупности имеющихся абсолютно полных или частично (по целевой переменной) полных наблюдений рассчитываются условные ожидаемые значения целевой переменной для каждого неполного наблюдения. атем после получения массива полных наблюдений, оцениваются основные статистические параметры: меры средней тенденции и разброса, показатели взаимной корреляции и ковариации переменных.
В случае работы с неполными даными на первом этапе определяется функция условного математического ожидания логарифма полной функции правдоподобия при известном значении целевой перменной :
(3)
Когда имеют дело с полным наблюдением, у которого характеристика Х принимает значение x, выражение (3) для вычисления значений функции принимает вид: . После определения этой вида этой функции начинается вторйо этап работы алгоритма - М этап.
Этап 2. На втором этапе, задача алгоритма максимизировать степень взаимного соответствия ожидаемых и реально подставляемых данных, а также соответствия структуры восстановленных данных структуре данных полных наблюдений.
В классическом варианте алгоритма, формально задачу по максимизации ожидания можно выразить следующим образом: . Здесь ? обозначает рассчитанное ожидаемое условное значение, отсутствующей характеристики для некоторого наблюдения.
3.2 Методика восстановления пропусков с использованием регрессионного моделирования
В большинстве случаев, восстановление пропусков при помощи регрессионных моделей осуществляется в два этапа:
1. На первом этапе по совокупности полных наблюдений отстраивается регрессионная модель, и оцениваются коэффициенты в уравнении, где в качестве зависимой переменной выступает целевая переменная - пропущенные значения по которой необходимо восстановить;
2. Затем по полученному на предыдущем этапе уравнению, в которое подставляются известные значения независимых переменных предикторов, для каждого целевого объекта рассчитывается отсутствующее значение по зависимой целевой переменной. В случае интервальных и абсолютных переменных рассчитывается конкретное значение, а для порядковых и номинальных переменных с некоторой вероятностью предсказывается категория, к которой должен быть отнесен объект.
Выбор регрессионной модели для расчета пропущенных значений переменной, определяется уровнем измерения целевой зависимой переменной (значения которой необходимо восстановить) и независимых переменных, по которым будут предсказываться отсутствующие значения.
Помимо теоретического описания различных методов восстановления важно понять, как они работают на практике. Кроме того, всем кто столкнулся или просто интересуется проблемой неполноты данных, будет полезно увидеть численные оценки потерь информации из-за неполноты наблюдений и качества восстановления в зависимости типа целевой переменной и исходной доли пропусков. Для того чтобы получить эти оценки в эмпирической части исследования был реализован методический эксперимент.

Основной задачей эксперимента, помимо оценки потерь информации, вследствие неполноты данных, является сравнение качества восстановления двумя методами: ЕМ - алгоритмом и регрессионным моделированием в зависимости от типа восстанавливаемых переменных и количества пропусков в данных.

Регрессионная модель, построенная на этом массиве, будет эталоном для сравнения с ней моделей, полученных после заполнения пропусков рассматриваемыми методами. Более эффективным будет тот метод восстановления данных, который обеспечит большее приближение данных после восстановления данных и построенной на них регрессионной модели к идеальным показателям.

3.3 Выводы по главе

В главе приведены 2 методики восстановления пропущенных данных: ЕМ- оценивание и с использованием регрессионного моделирования. Для сравнения описанных методик восстановления пропущенных значений из массива данных удалено около 10% наблюдений. С ростом доли искусственных значений точность прогнозирования при расчете среднего для регрессионного моделирования в случае переменных с большой дисперсией ниже, чем у ЕМ - алгоритма. А для переменных с незначительной дисперсией однозначного вывода в пользу одного из методов сделать нельзя, так как изменения среднего значения для двух методов разнонаправлены: ЕМ- алгоритм приводит к завышению среднего значения, а регрессионное моделирование к его занижению.

ЗАКЛЮЧЕНИЕ

Для решения первой задачи привести обзор возможных неопределенностей в исходных данных систем и процессов защиты информации. Отмечено, что основными видами неопределенности являются: неполнота информации, недостоверность информации. Неполнота информации - это пропущенные значения в исходных данных, недостоверность - представление исходных данных в виде нечетких множеств и интервалов.

Для решения второй задач проведен анализ существующих методов структурирования неопределенностей, а именно: методы восстановления пропусков в массивах данных, арифметических операций над интервальными и нечеткими множествами, методы прогнозирования временных рядов.

В рамках третьей задачи в рассмотрены 2 методики: ЕМ- оценивание и с использованием регрессионного моделирования. Для указанных методик проведен сравнительный анализ.

СПИСОК ИСПОЛЬЗУЕМЫХ ИСТОЧНИКОВ

1 Малюк А.А. Информационная безопасность: концептуальные и методологические основы защиты информации. - М: Горячая линия-Телеком, 2004. - 280 с.

2 Литтл Р.Дж.А., Рубин Д.Б. Статистический анализ данных с пропусками. - М.: Финансы и статистика, 1990.

3 Загоруйко Н.Г. Прикладные методы анализа данных и знаний. - Новосибирск: Изд-во ин-та математики, 2003.

4 Россиев А.А. Моделирование данных при помощи кривых для восстановления пробелов в таблицах. Методы нейроинформатики / Под. ред. А.Н. Горбаня. - Красноярск: КГТУ, 2004.

5 Демиденко Е.З. Линейная и нелинейная регрессия. - М.: Финансы и статистика, 2001.

6 Круглов В.В., Борисов В.В. Искусственные нейронные сети. Теория и практика. - М.: Горячая линия - Телеком, 2002.

7 Корченко А.Г. Построение систем защиты информации на нечетких множествах. Теория и практические решения. - К.: МК-Пресс, 2006.

8 Петренко С.А, Симонов С.В. Управление информационными рисками. - М.: ДМК Пресс, 2004.

9 Круглов В.В. Нечеткая логика и искусственные нейронные сети. - М.: ФИЗМАТЛИТ, 2001.

10 Вихорев С.В. Классификация угроз информационной безопасности// Сетевые атаки и системы информационной безопасности, 2001.

11 Пархоменко Н., Яковлев С., Пархоменко П., Мисник Н. Угрозы информационной безопасности. Новые реалии и адекватность классификации// Защита информации. Конфидент. - № 6, 2003.

12 Халов Е.А. Теоретические основы построения многопараметрических функций принадлежности нечетких систем// Информационные процессы. - Т.9. - №1, 2009.

13 Емельянников М. Информационные системы персональных данных: http://daily.sec.ru/dailypblshow.cfm?rid=9&pid=22489.

14 Алтунин А.Е., Семухин М.В. Модели и алгоритмы принятия решений в нечетких условиях. - Тюмень: Изд-во ТюмГУ, 2000.

Размещено на Allbest.ru


Подобные документы

  • Виды неопределенностей в исходных данных систем и процессов защиты информации. Методы восстановления пропущенных значений в исходных данных. Моделирование методом экспертного построения функций, принадлежности оценки уровня риска информационной системы.

    дипломная работа [735,3 K], добавлен 13.07.2011

  • Носители данных. Операции с данными. Основные структуры данных. Требования к криптосистемам. Законодательная поддержка вопросов защиты информации. Средства архивации информации. Антивирусные программы. Классификация компьютерных вирусов. Сканеры.

    курсовая работа [563,1 K], добавлен 16.12.2004

  • Основные положения теории защиты информации. Сущность основных методов и средств защиты информации в сетях. Общая характеристика деятельности и корпоративной сети предприятия "Вестел", анализ его методик защиты информации в телекоммуникационных сетях.

    дипломная работа [1,1 M], добавлен 30.08.2010

  • Проблемы защиты информации в информационных и телекоммуникационных сетях. Изучение угроз информации и способов их воздействия на объекты защиты информации. Концепции информационной безопасности предприятия. Криптографические методы защиты информации.

    дипломная работа [255,5 K], добавлен 08.03.2013

  • Виды умышленных угроз безопасности информации. Методы и средства защиты информации. Методы и средства обеспечения безопасности информации. Криптографические методы защиты информации. Комплексные средства защиты.

    реферат [21,2 K], добавлен 17.01.2004

  • Программный способ восстановления данных без физического вмешательства в устройство накопителя, а также в функционирование микропрограммы и структуру модулей служебной информации. Восстановление структуры файловой системы или ее удаленных данных.

    презентация [67,5 K], добавлен 20.11.2016

  • Способы и средства защиты информации от несанкционированного доступа. Особенности защиты информации в компьютерных сетях. Криптографическая защита и электронная цифровая подпись. Методы защиты информации от компьютерных вирусов и от хакерских атак.

    реферат [30,8 K], добавлен 23.10.2011

  • Технология сбора информации традиционными методами. Правила сбора оффлайновой информации. Технические средства сбора информации. Операции для быстрого восстановления данных в системах хранения. Технологический процесс и процедуры обработки информации.

    курсовая работа [304,5 K], добавлен 02.04.2013

  • Обоснование актуальности проблемы защиты информации. Концепция защиты информации в адвокатской фирме "Юстина". Каналы и методы несанкционированного доступа к защищаемой информации. Организация комплексной системы защиты информации в адвокатской конторе.

    курсовая работа [92,4 K], добавлен 21.10.2008

  • Сущность проблемы и задачи защиты информации в информационных и телекоммуникационных сетях. Угрозы информации, способы их воздействия на объекты. Концепция информационной безопасности предприятия. Криптографические методы и средства защиты информации.

    курсовая работа [350,4 K], добавлен 10.06.2014

Работы в архивах красиво оформлены согласно требованиям ВУЗов и содержат рисунки, диаграммы, формулы и т.д.
PPT, PPTX и PDF-файлы представлены только в архивах.
Рекомендуем скачать работу.