Моделирование систем и процессов защиты информации в условиях неполноты и недостоверности данных

Виды неопределенностей в исходных данных систем и процессов защиты информации. Методы восстановления пропущенных значений в исходных данных. Моделирование методом экспертного построения функций, принадлежности оценки уровня риска информационной системы.

Рубрика Программирование, компьютеры и кибернетика
Вид дипломная работа
Язык русский
Дата добавления 13.07.2011
Размер файла 735,3 K

Отправить свою хорошую работу в базу знаний просто. Используйте форму, расположенную ниже

Студенты, аспиранты, молодые ученые, использующие базу знаний в своей учебе и работе, будут вам очень благодарны.

В отличие от наиболее изученных дифференцируемых динамических систем в настоящей работе рассматриваем эволюционные процессы, которым присуще дискретное изменение наблюдаемых показателей во времени, т.е. изменения, происходящие в определенные промежутки времени (скачки). В этом случае соответствующее фазовое пространство является дискретным, а упорядоченная во времени последовательность значений наблюдаемого процесса называется временным рядом. Если эволюционный процесс, а точнее, изменение во времени его состояний подчиняется некоторым вероятностным закономерностям, то его принято называть стохастическим процессом.

Термин «структурирование данных» подразумевает эффективное представление данных в некотором классе задач, подлежащих решению на ЭВМ. Структурирование данных обычно происходит с помощью фиксированных в используемом языке способов построения и представления, исходя из конечного числа базовых структур. Например, деревья удобны для представления часто встречающихся иерархических структур. К настоящему времени методологически завершенной является теория структурирования целей в системном анализе, а также структурирование компонент временных рядов с точки зрения их прогнозирования.

Применительно к эволюционным процессам структурирование данных направлено на то, чтобы исследователь имел четкое представление о моделях, отражающих динамику эволюционирования, т.е. поведения учитываемых данных, а также о методах, с помощью которых эти данные можно оценить.

Рассматривая стохастический процесс, значения наблюдаемого показателя представляем в виде числовой функции (дискретного) времени . В общем случае характеристики рассматриваемого стохастического процесса в любой момент времени являются случайными величинами с определенными распределениями вероятности.

Приведем сложившуюся к настоящему времени классификацию стохастического процесса по зависимости между значениями в различные моменты времени :

- стохастический процесс с независимыми значениями: при любых и , , случайные величины и независимы;

- стохастический процесс с независимыми приращениями: для любых непересекающихся интервалов и , , случайные величины:

и независимы;

- стохастический процесс с Марковским свойством, т.е. случайный процесс без последействия. Случайный процесс называется Марковским процессом, если для любых двух моментов времени и , условное распределение при условии, что заданы все значения при , зависит только от ;

- стационарные случайные процессы: вероятностные характеристики стохастического процесса неизменны во времени, в частности при любых и случайные величины:

и имеют одинаковое распределение;

- случайные величины и имеют одинаковые совместные распределения и т.д.

«Теории неточных вероятностей» позволили моделировать кроме случайностей и другие виды неопределенностей, включающие непротиворечивость, неточность и неполноту имеющей информации.

В этих математических моделях вероятности событий задаются неточным образом, например, интервально, т.е. путем определения верхней и нижней границ вероятностей событий. При этом важно отметить, что нечеткие меры в отличие от вероятностных мер не обладают свойством аддитивности в общем случае. Вместе с тем, в теориях нечетких вероятностей постулируется гипотеза о том, что вероятностный закон нам неизвестен, но он имеет место быть и достаточно адекватно отражается одной из вероятностных мер. Последнее определяется с помощью некоторой функции множеств, которая дает точные нижние оценки вероятности событий , где - алгебра всех подмножеств базового множества:

.

Верхние вероятности получаются с помощью отношения двойственности .

В рамках указанных выше теорий выбор и принятие решений осуществляется на базе различных моделей логического вывода без вероятностного обоснования, но при этом существенным образом используя «интуитивное» понимание нечетких множеств.

Возможные модели логического вывода обобщают классическую модель пропозициональной логики в том смысле, что высказывания задаются нечеткими множествами. При этом важно отметить, что в эти множества вкладывается вероятностная интерпретация - каждое нечеткое множество задает распределение возможностей на базовом измеримом пространстве, а значение меры возможности интерпретируется как верхняя оценка вероятности.

Ключевое различие между случайностью и нечеткостью состоит в том, как пересекаются взаимоисключающие события. В классической теории вероятности их пересечение - это пустое множество, а в теории нечетких множеств - нет. В теории вероятности сумма вероятностей двух взаимно исключающих друг друга событий всегда равна единице, в то время как в теории возможностей она может быть и больше единицы.

Таким образом, в теории возможностей используется функция принадлежности. Ее значения представляют собой не вероятность наступления события, а степень возможности реализации данного исхода. При этом не предполагается, что сумма степеней появления двух взаимоисключающих исходов равна 1.

Задачи статистического анализа обычно разделяют на три обширных класса:

- статистическое оценивание;

- проверка статистических гипотез;

- построение статистических зависимостей.

В круг задач статистического оценивания входит задача вычисления оценки функции распределения. Оценивание распределения можно считать несущественной задачей, но только в случае неограниченных возможностей в получении статистического материала. Действительно, в таком случае с помощью широко известных методов можно очень точно оценивать параметры распределений и иметь небольшие ошибки при проверке гипотез. Если же необходимо оценить распределение, то это несложно выполняется одним из распространенных методов, например с помощью построения полигона частот или гистограммы.

На практике часто приходится работать в условиях ограниченных объемов выборок. При анализе статистического материала ограниченного объема задача оценивания функции распределения принимает проблематичный характер. Единственным методом ее решения в таких условиях, если есть в этом необходимость, является построение эмпирической функции распределения, имеющей вид ступенчатого графика. Эта задача приобретает главенствующее значение для выборок очень малого объема, содержащих менее десяти наблюдений.

Выборку следует считать малой, если при ее обработке методами, основанными на группировке наблюдений, нельзя достичь заданных точности и достоверности. Из этого определения следует, что выборку можно считать большой, если при ее обработке имеется возможность перейти к группировке наблюдений без ощутимой потери информации. При этом должны достигаться заданные точность и достоверность. Границу, разделяющую большие и малые выборки (достаточная выборка), нельзя, конечно, понимать как точку в ряду натуральных чисел. Достаточные выборки, естественно, в силу случайности выбора, образуют некоторое конечное множество. Но самым существенным, что следует из определения малой выборки, является необходимость при обработке малой выборки индивидуального подхода к каждой отдельной реализации.

Проблема малых выборок приобретает важное значение в случае, когда возникает вопрос: имеет ли рассматриваемый экономический временной ряд тяжелые хвосты и если да, то как соотносится вес «головы» этого распределения и вес его «хвоста» («хвостов»)?

Определение термина «тяжелый хвост» относится к случаю, когда объем выборки (длина временного ряда) является вполне достаточным для достоверного определения имеющегося распределения. Случайная величина имеет распределение с тяжелым хвостом, если вероятность:

, ,

где параметр и - положительная константа. Указанное определение означает, что хвост распределения затухает по гиперболическому закону, т.е. медленно, в силу чего дисперсия этого распределения стремится к бесконечности. В противоположность этому распределение с легким хвостом, например, нормальное имеет экспоненциально спадающий хвост. В этом случае уже за пределами (т.е. за пределами радиуса, равного трем стандартным отклонениям окрестности математического ожидания ) вес хвоста составляет, как правило, несколько процентов от веса головы.

Таким образом, возникает проблема установления наличия или отсутствия тяжелого хвоста для реальных экономических временных рядов, длина которых составляет несколько десятков или порядка 100. В этом случае просто не представляется возможность сколь-нибудь достоверн6о установить характер функции распределения для вероятности . Для установления факта наличия тяжелого хвоста существует инструментарий, идея которого связана с понятием лептоэксцесса.

Определение термина «лептоэксцесс» базируется на том факте, что для нормального распределения, обладающего легким хвостом, значение коэффициента эксцесса равно одной и той же константе, равной числу 3 при любых значениях параметров этого распределения. Явление лептоэксцесса подразумевает, что вес хвоста растет с ростом значения коэффициента эксцесса. При этом с учетом известного «правила трех сигм» в рассматриваемом эмпирическом распределении к области хвоста (хвостов) относятся такие точки этого распределения, которые находятся за пределами области «головы» . Эмпирический вывод, полученный на основании анализа многочисленных реальных временных рядов сводится к следующему утверждению: рассматриваемое распределение обладает тяжелым хвостом, если вклад точек, находящихся за пределами «головы», вносит в значение коэффициента эксцесса вес, больший числа 3.

Структурирование данных для эволюционных процессов и систем чаще всего включает в себя этап прогнозирования, которое, вообще говоря, может относиться к одному из измерений для более качественного предсказания другого измерения. Последнее в рамках эконометрики обычно реализуется двумя базовыми инструментами: корреляционный анализ, позволяющий оценить степень взаимосвязи между двумя факторами (если такая взаимосвязь вообще существует) и регрессионный анализ, показывающий, как можно предсказать, или управлять одной из двух переменных с помощью другой.

Временные ряды отличаются от данных об одном временном срезе в том отношении, что в случае временных рядов сама последовательность наблюдений несет в себе важную информацию. В частности, чтобы охарактеризовать какую-либо совокупность данных в целом, нам уже недостаточно знать лишь типичное значение этих данных (например, среднее значение) или даже изменчивость этой совокупности данных (описываемую, например, стандартным отклонением). В этом случае желательно знать, что скорее всего произойдет дальше. Подобный прогноз должен по возможности точнее экстраполировать ближайшее поведение системы с точки зрения моделей поведения этой системы в прошлом.

Временной ряд не является случайной выборкой из некоторой генеральной совокупности (исключением является процесс чистого случайного шума). Гораздо вероятнее, например, что завтрашняя цена окажется ближе к сегодняшней, чем к прошлогодней цене; последовательные наблюдения не являются независимыми друг от друга.

Современное прогнозирование предполагает научно обоснованное суждение о возможных состояниях некоторой системы в будущем, об альтернативных путях и сроках его осуществления, оно предпочитает получение количественных оценок этих состояний при помощи математических и инструментальных средств реализации. Методологии прогнозов присущи общие черты. Все они в той или иной мере используют экстраполяцию прошлых тенденций в отношении как общенациональных, так и частичных показателей производства, народонаселения, технического прогресс и т.д.

Методы, составляющие инструментарий классического прогнозирования, согласно, могут быть разделены на 3 большие группы: статистические, причинно-следственные и комбинированные. Использование этого инструментария предполагает, что исходные данные обычно представляют собой результаты выборочных наблюдений. При этом не каждую совокупность зарегистрированных реальных данных нужно считать подходящим временным рядом, на основании, которого можно составлять прогноз. Из такой совокупности должны быть исключены выбросы, т.е. такие результаты наблюдений, которые не являются характерными или типичными для рассматриваемого эволюционного процесса. К выбросам могут быть отнесены такие уровни ряда, для которых уклонение от среднего превосходит , - стандартное отклонение. Прогнозирование временного ряда осуществляется в предположении, что для него выполняются условия стационарности и независимости уровней, составляющих этот ряд. Уместно отметить, что указанное свойство независимости обуславливает подчинение уровней ВР нормальному закону.

К основным вопросам анализа временных рядов относится выявление сезонности, а также тренда, имеющего, как правило, полиномиальное представление. Выявление трендовой составляющей базируется, как правило, на различных подходах к построению скользящей средней.

Процесс построения прогнозной модели обычно подразумевает использование тех или иных методов уточнения прогноза (в современном представлении - методов «обучения» прогнозной модели). К их числу относится метод адаптивного сглаживания, метод Бокса-Дженкинса или их обобщение, получившее название «байесовские прогнозы».

Классика прогнозирования явно или «по умолчанию» подразумевает, что для предлагаемой прогнозной модели осуществляется ее верификация и валидация. Термин «верификация» подразумевает содержательный и логический анализ гипотезы, на которой базируется предлагаемая прогнозная модель, а также эмпирическое подтверждение или отрицание правильности этой гипотезы. Валидация - оценка точности прогнозирования.

Представляется естественным вычислить ошибки прогноза в виде разницы между фактическими значениями ВР и прогнозными значениями рассматриваемого отрезка ВР. Однако, эта разница, строго говоря, представляет собой оценку точности аппроксимации. Для последней существуют вполне надежные критерии оценки точности - дисперсия, критерии Фишера и Стьюдента и др. Применение этих критериев для оценки точности прогноза вызывает серьезное возражение, т.к. не дает гарантии, что в будущем эти оценки будут правомерны. Существует лишь предположение, что в будущем эволюционный процесс сохранит свои характеристики. Это условие означает стабильность или устойчивость динамики временного ряда, которая является необходимой для получения прогноза вообще.

Наряду с верификацией прогнозной модели существует проблема верификации исходных данных. Эта проблема возникает в связи с тем, что классические методы прогнозирования базируются на предположении, что выполняется требование нормальности распределения ошибок в исходной информации.

Развитие экономико-математического моделирования, анализа и прогнозирования в современных условиях связано с последовательным ростом уровня их формализации. Основу этого развития заложил прогресс в области прикладной математики, математической статистики, методов оптимизации, теории приближений, в эконометрике, прогностике и пр.

Для процессов управления в промышленности, экономике, финансовом бизнесе характерна определенная стабильность, инертность, сложившаяся структура взаимосвязей. При выборе подходящей апроксимизирующей функции нужно знать класс экономического поведения показателя. Это поведение может представлять собой сезонные (периодические) процессы, процессы накопления или распада экспоненциального типа, достаточно гладкое трендовое поведение и др. Менеджер, как правило, нуждается в уточнении этого временного класса.

К настоящему времени в экономико-математических публикациях уже сложилось классическое представление о структурировании временного ряда при построении для него прогнозной модели. Эту структуру составляют следующие 4 компоненты:

1) долгосрочная тенденция (тренд);

2) точное повторение сезонных моделей поведения;

3) циклы, т.е. непериодические («блуждающие») циклические подъемы и падения;

4) остаточная компонента в виде случайного, нерегулярного шума. Прогноз получается путем наложения прогнозных моделей, соответствующих каждой из перечисленных четырех компонент.

Трендом временного ряда:

, , ,

называют плавно изменяющуюся нециклическую (непериодическую) компоненту, описывающую чистое влияние долговременных факторов. В простейших случаях тренд представляется в виде следующих функций от :

- линейная модель вида ;

- степенная модель , ;

- полиномиальная модель ;

- показательная модель ;

- логарифмическая модель вида ;

- экспоненциальная модель ;

- логистическая модель вида ;

- модель Гомперца , где ;

- гиперболическая .

Для последней существует несколько разновидностей гиперболы, обладающих разными свойствами:

- равносторонняя гипербола, асимптотическая к линии, параллельной оси :

;

- равносторонняя гипербола, асимптотическая к линиям, параллельным обеим осям:

;

- логистическая функция:

,

где , - максимальное и минимальное значения уровней ряда динамики (положительные или отрицательные); , - неизвестные параметры уравнения тренда.

Рассмотрим тренды и циклы в техническом анализе. Термин «технический анализ» означает исследование динамики любых показателей (рынка) при помощи графических методов с целью прогнозирования будущего направления их эволюции. С точки зрения менеджера технический анализ рыночных ВР базируется на трех краеугольных камнях:

- рыночные временные ряды учитывают всё;

- рыночные временные ряды подчиняются тенденциям;

- рыночные временные ряды содержат закономерности.

По видимому, правомерность первого из этих утверждений можно оценивать в терминах нечетких множеств, у которых не совсем близки к 1 значения функции принадлежности для лингвистических переменных, составляющих понятие «всё». Второе из этих утверждений закладывает основу для трендового анализа в том смысле, что наметившийся тренд с большой вероятностью продлится, нежели изменит направление. Вместе с тем, рыночные отношения объективно обуславливают непредсказуемость появления и окончания трендов. Третье из приведенных утверждений означает, что правила рынка, действовавшие в прошлом, будут действовать в настоящем и будущем.

Важнейшим инструментом технического анализа являются тренды. В этой области тренд, он же тенденция определяется как однонаправленное движение анализируемого показателя, действующее в течение определенного непрерывного периода времени. Главная причина трендовости или трендоустойчивости экономических и природных процессов заключается в объективно существующей инерционности экономических и природных явлений.

В техническом анализе направление тренда определяют при помощи различных процедур усреднения наблюдаемого временного ряда. Для рассматриваемого временного ряда:

: , ,

при выбранной длине интервала сглаживания элемент , простого скользящего среднего (Moving Average - MA) вычисляется по формуле:

, , (11)

В техническом анализе уже сложилась классификация трендов, относящаяся к рыночным показателям. Тренд бывает не только растущим («бычьим»), убывающим («медвежьим») или нейтральным, но и:

-сильным, слабым или нормальным;

- молодым, зрелым или старым;

-долгосрочным, среднесрочным или краткосрочным.

Перечислим основные принципиальные особенности прогнозного ARIMA- процесса. Базовой компонентой при этом является процесс авторегрессии скользящего среднего, который состоит из линейной функции от предыдущих наблюдений , . Прогнозируемые приращения вычисляются по формуле

(12)

где - const - коэффициент авторегрессии, - случайный шум, - некоторая доля предыдущего случайного шума . Пользователю прогнозного ARIMA- процесса полезно учитывать следующие его особенности:

10. Компонента авторегрессии в комбинации со скользящей средней обладает памятью о своем прошлом. Однако эта память ограничена двумя предшествующими наблюдениями и .

20. Компонента чистого интегрированного процесса состоит из компоненты , определяющей состояние дрейфа, плюс случайный шум , подчиняющийся нормальному распределению.

Таким образом, прогнозная ARIMA- модель является полезной в тех ситуациях, в которых нет тенденции возврата к долгосрочному среднему значению (например, индекс потребительских цен) или, наоборот, в которых ряд стремится оставаться вблизи долгосрочного среднего значения (например, уровень безработицы или процентные ставки). При этом в первом из указанных случаев (не стационарности) долгосрочные прогнозы проявляют тенденции к бесконечному нарастанию или наоборот, монотонному снижению.

К настоящему времени наибольшее распространение и применение в реальных расчетах получили методы третьей группы из перечисленных выше. Чаще всего в реальном экономико-математическом моделировании основное внимание уделяется анализу трендов и сезонности. При этом построение прогнозной модели рассматриваемого временного ряда реализуется через преобразование его в базовую модель временного ряда. Точно так же каждый элемент, т.е. каждое число в этой базовой модели ВР получается путем перемножения четырех компонент:

«Данные = тренд сезонность цикличность регулярность».

Содержательное определение этих четырех компонент в случае экономического прогнозирования состоит в следующем.

Эти четыре базовые компоненты временного ряда (тренд, сезонность, циклическая и случайная компоненты) можно оценивать различными способами. Ниже приведено краткое изложение метода, который базируется на скользящей средней. В основе этого метода лежит деление элементов ряда на значения ординат скользящей средней следующим образом:

- скользящая средняя используется для устранения сезонных эффектов усреднения по всему году, а также для уменьшения нерегулярной компоненты и получения комбинации тренда и циклической компоненты;

- деление элементов исходного ряда на значения соответствующих ординат сглаженного ряда скользящей средней дает нам «отношение к скользящей средней», которое представляет нам как сезонные, так и нерегулярные значения. Выполняя группирование по сезонным периодам, например, по времени года, а затем усреднение в полученных группах, находим сезонный индекс для каждого времени года. Выполняя деление каждого значения ряда на соответствующий сезонный индекс для соответствующего времени года, находим значения с сезонной поправкой;

- регрессия ряда с сезонной поправкой по времени служит для оценивания долгосрочного тренда в виде прямой линии как функции от времени, т.е. эта переменная времени может состоять из чисел 1, 2, 3,… . Этот тренд (тенденция) не отражает сезонных колебаний и дает возможность получить прогноз с сезонной поправкой;

- прогнозирование можно выполнять с помощью сезонности тренда. Получая из уравнения регрессии прогнозируемые значения (тренд) для будущих периодов времени и затем, умножая их на соответствующий сезонный индекс, мы получаем прогнозы, которые отражают как долгосрочную тенденцию, так и сезонное поведение.

Анализ публикаций, посвященных методам и моделям прогнозирования, позволяет утверждать о существовании двух параллельных направлений в этой теории. Упомянутые объекты первого из этих направлений имеют социально-экономическое содержание. Объектами второго направления являются сложные системы техногенного происхождения из различных областей жизнедеятельности.

2.3.4 Структурирование данных на базе интеллектуальных инструментальных средств

Структурирование данных в основном заключается в реализации процедуры исключения из дальнейшего рассмотрения малозначимых составляющих. Для реального осуществления процесса структурирования могут быть использованы различные методы экспертной оценки - ранжирование, нормирование, упорядочения разного рода.

В течение последнего десятилетия пришло осознание того, что реальным эволюционным социально-экономическим процессам и системам присущи высокая степень неопределенности и чрезмерная сложность динамики их эволюционирования, что усложняет применение классических моделей. Недостаточность классических подходов особенно отчетливо проявляется при попытках структурирования зашумленных цифровых данных. Наряду с проблемой зашумленности существуют еще две проблемы: проблема выбора из неограниченно расширяющегося множества допустимых решений, мощность которого чаще всего растет экспоненциально с ростом размерности задач; и проблема адекватного описания таких явлений и понятий, которые имеют многозначный и нечеткий характер, в особенности, когда достигнутые значения представляют в виде правил, основанных на нечетких множествах и лингвистических переменных.

Факт существования вышеупомянутых проблем объясняет основные причины, которые вызывают рост интереса у исследователей-теоретиков и менеджеров-практиков к новым интеллектуальным технологиям поддержки принятия управленческих решений. Эти интеллектуальные технологии реализуются на базе таких методов, как нейронные сети, генетические алгоритмы, клеточные автоматы и нечеткие системы.

Термин «нечеткие системы» подразумевает соединение инструментария нечетких множеств с реализацией новых информационных технологий. К настоящему времени теория нечетких систем - это единственная теория, которая математически оперирует со смысловым содержанием слов человека. Иными словами, это математический метод, созданный для того, чтобы представлять смысловые нечеткости слов человека и математически обрабатывать субъективные данные.

Наряду с определенной самодостаточностью нечеткие системы способны усилить возможности нейронных сетей и генетических алгоритмов. Использование в этом случае нечетких систем не только ослабляет требование к точности данных в процессе построения моделей, но и позволяет описать сложные системы с помощью переменных, значения которых определяются на интуитивном уровне. Возникающая в результате этого парадигма моделирования, управления, выработки решений и т.п. ведет к формированию лингвистических аргументов логических функций. Такие функции, описывающие реальные объекты, могут уточняться в процессе обучения по имеющимся данным. Более того, появляется возможность формирования нечетких правил вывода в процессе обучения.

В конечном счете, приходим к новой парадигме искусственного интеллекта, которая подразумевает способность извлекать новые знания из имеющихся данных, накапливать эти знания в процессе обучения, генерировать новые правила вывода и, как следствие, обобщать информацию.

Инструментарий искусственных нейронных сетей. Нейронные сети были созданы в результате наблюдения за естественными процессами, происходящими в нервной системе живых существ, и попыток воспроизведения этих процессов. Термин нейрон, обозначающий основной исполнительный элемент искусственных нейронных сетей, был непосредственно заимствован из теории природных нервных систем.

Схема одно нейронной сети представлена на рисунке 6, где нейрон -го слоя выполняет функцию адаптивного сумматора с регулируемыми уровнями входных сигналов:

, ,

который осуществляет дополнительную линейную или нелинейную обработку вычисленной суммы с целью получения результата. Нейрон получает входные сигналы либо от сенсоров (которыми могут являться нейроны предшествующего слоя сети) либо в форме центростремительных сигналов с выходов других формальных ячеек.

Рисунок 2 - Однослойная нейронная сеть

Алгоритм, используемый для обучения данного нейрона, получил название «Алгоритм наименьших квадратов» (Least-Mean-Square Algorithm, или LMS).

Искусственная нейронная сеть (ИНС), показанная на рисунке 6, имеет один недостаток - пороговое значение устанавливается жестко и корректируется только вручную. Этого можно избежать, если добавить к входу нейрона один синапс с постоянно установленным на нем потенциалом -1, а вес, на который умножается этот потенциал, подбирать так же, как и остальные веса - в процессе обучения.

Общая проблема искусственных нейронных сетей заключается в построении искусственной системы с заданным функциональным поведением; в контексте нейронных сетей она понимается, как задача синтеза требуемой искусственной сети. Она может включать в себя следующие подзадачи:

1) выбор существенных для решаемой задачи признаков и формирование признаковых пространств;

2) выбор или разработка архитектуры нейронной сети, адекватной решаемой задаче;

3) получение обучающей выборки из наиболее представительных, по мнению эксперта, векторов признаковых пространств;

4) обучение нейронной сети на обучающей выборке.

Отметим, что первые три подзадачи во многом требуют экспертного опыта работы с нейронными сетями, и здесь нет исчерпывающих формальных рекомендаций.

Под процессом обучения персептрона понимается алгоритмическая корректировка весовых коэффициентов синаптических связей каждого участвующего в процессе обучения нейрона, направленная на достижение минимальной ошибки в определении параметров выходного вектора для каждого из входных «образцов».

На этапе обучения на вход сети последовательно подаются входные сигналы из заранее подготовленного для тренировки сети набора. Каждому из входных сигналов (данным) соответствуют заранее известные параметры выходного вектора, определение которых для произвольного набора данных, в том числе не использованных в процессе обучения, является целью задачи. Такими параметрами могут быть, например, логические утверждения принадлежности входного вектора тому или иному классу решений или его соответствия одному из тестовых образов, коэффициенты разложения входной функции относительно некоторого базиса и т.д.

Существует очень большой класс задач, когда желаемые значения выходов вообще неизвестны, а нейронной сети предлагается найти скрытые закономерности в массиве данных. Например, от нейронной сети может потребоваться нахождение компактного представления большого массива избыточных данных, т.е. произвести его оптимальное кодирование. Такое обучение называют обучением без учителя.

Обучение без учителя чаще всего используют в задачах предобработки большого количества данных. В отсутствие желаемых значений выходов, «учителем» сети становятся сами данные, а именно, имеющиеся в них зависимости. Значительная избыточность входных данных позволяет нейронной сети выделять из них закономерности и находить их более компактное представление. Практически можно сказать, что самообучающиеся сети «кодируют» входную информацию наиболее компактным, при заданных архитектурой ограничениях, кодом.

Подход к обучению ИНС учитывает следующие обстоятельства:

а) модифицируются только компоненты матрицы весов, отвечающие ненулевым значениям входов;

б) знак приращения веса соответствует знаку ошибки, т.е. положительная ошибка (, значение выхода меньше требуемого) приводит к усилению связи;

в) обучение каждого нейрона происходит независимо от обучения остальных нейронов, что соответствует важному с биологической точки зрения принципу локальности обучения.

Инструментарий клеточных автоматов. Клеточным автоматом называют сеть из элементов, меняющих свое состояние в дискретные моменты времени в зависимости от состояния самого элемента и его ближайших соседей в предшествующий момент времени.

В более общем представлении клеточный автомат - это определенная динамическая система, состоящая из множества идентичных, имеющих предел машин или ячеек, которые повторно меняют «цвет» или состояние, следуя заранее определенным правилам, и эти правила одинаково действует по отношению ко всем элементам множества в дискретном временном отрезке.

В общем случае ячейки в клеточном автомате могут принимать один из различных цветов, очень часто обращаются к двум цветам (белому и черному).

Различные клеточные автоматы могут демонстрировать весьма разнообразное поведение, которое может быть адаптировано для целей обработки информации за счет выбора:

- закона изменения состояния элемента, т.е. другой функции перехода;

- конкретного определения понятия «ближайшие соседи».

В публикациях, посвященных нейронным сетям, отмечено, что существует определенное сходство работы алгоритмов для нейронных сетей и для клеточных автоматов. Например, рассматриваемая без обучения нейронная сеть Хопфилда вполне может рассматриваться, как клеточный автомат, элементами которого являются формальные нейроны. В качестве закона изменения состояния нейроавтомата используется пороговое преобразование взвешенной суммы входов нейронов, а ближайшими соседями каждого элемента являются все прочие элементы автомата.

В теории клеточных автоматов имеется классификация, согласно которой все автоматы делятся на четыре класса, в зависимости от типа динамики изменяющихся состояний. Автоматы первого класса по истечении конечного времени достигают однородного состояния, в котором значения всех элементов одинаковы и не меняются со временем. Ко второму классу автоматов относятся системы, приводящие к локализованным структурам стационарных или периодических во времени состояний элементов. Третий класс составляют «блуждающие» автоматы, которые с течением времени посещают произвольным (непериодическим) образом все возможные состояния элементов, не задерживаясь ни в одном из них. И, наконец, четвертый класс составляют «странные» автоматы, характер динамики которых зависит от особенностей начального состояния элементов. Некоторые начальные состояния приводят к однородному вырождению автомата, другие - к возникновению циклической последовательности состояний, третьи - к непрерывно меняющимся (как «по системе», так и без видимой системы) картинам активности элементов.

Инструментарий генетических алгоритмов. Генетические (эволюционные) алгоритмы возникли в результате наблюдения и попыток копирования естественных процессов, происходящих в мире живых организмов, в частности, эволюции и связанной с ней селекции (естественного отбора) популяций живых существ. Иными словами, генетические алгоритмы - это процедуры поиска, основанные на механизмах естественного отбора и наследования.

Механизм селекции заключается в выборе хромосом с наивысшей оценкой (т.е. наиболее приспособленных), которые репродуцируют чаще, чем хромосомы с более низкой оценкой (хуже приспособленные). Репродукция означает создание новых хромосом в результате рекомбинирования генов родительских хромосом. Рекомбинация - это процесс, в результате которого возникают новые комбинации генов. Для этого используются две операции: скрещивание, позволяющее создать две совершенно новые хромосомы потомков путем комбинирования генетического материала пары родителей, а также мутация, которая может вызывать изменения в отдельных хромосомах.

В генетических алгоритмах применяется ряд терминов, заимствованных из генетики, прежде всего, хромосомы, а также популяция, особь, аллель, генотип, фенотип. От традиционных методов оптимизации генетические алгоритмы отличаются следующими базовыми элементами:

1) обрабатывают не значения параметров самой задачи, а их закодированную форму;

2) осуществляют поиск решения, исходя не из точки, а из некоторой популяции;

3) используют только целевую функцию, а не ее иную дополнительную информацию;

4) применяют вероятностные, а не детерминированные правила выбора.

Перечисленные четыре свойства, которые можно сформулировать как кодирование параметров, а также использование минимума информации о задаче и рандомизация операций приводят в результате к устойчивости генетических алгоритмов и к их превосходству над другими широко применяемыми технологиями.

С помощью генетических алгоритмов эффективно решается проблема выбора из неограниченно расширяющегося множества допустимых решений. В работе этих алгоритмов приближение или выбор наиболее целесообразного решения достигается за счет генерации серии последовательных приближений аргументов с лучшими значениями функций приспособленности, генерируемой в результате мутации и скрещивания «хромосом». Можно утверждать, что применение генетических алгоритмов является целесообразным для сжатия необозримых объемов информации, подаваемой на вход используемой информационно-вычислительной системы.

Поток огромного количества информации, справляться с которой становится все труднее и труднее, является одной из отрицательных черт современного информационного общества. Причем, во многих случаях эта информация является явно избыточной, что лишь затрудняет ее обработку и восприятие. Стремлением избавиться от этого отчасти объясняется наметившийся рост интереса к сжатию информации с целью отбрасывания несущественных данных и выделения только наиболее значимых.

Экспертные системы. Эксперт - это человек, который является профессионалом достаточно высокого уровня в каком-то вопросе, чьи оценки и суждения по поводу объекта экспертизы учитываются при принятии решений.

Под экспертизой обычно понимают проведение группой компетентных специалистов измерения некоторых характеристик для подготовки принятия решений. Типичными проблемами, требующими проведения экспертизы, являются, например: определение целей, стоящих перед объектом управления; прогнозирование; разработка сценариев; генерирование альтернативных вариантов решений; определение рейтингов и другие.

Выделяют следующие основные этапы экспертизы:

- формулировка цели экспертизы;

- построение объектов оценивания или перечисление их характеристик;

- формирование экспертной группы;

- определение способа экспертного оценивания и способа выражения экспертами своих оценок;

- проведение экспертизы;

- обработка и анализ результатов экспертизы;

- повторные туры экспертизы, если есть необходимость уточнить или сблизить мнения экспертов;

- формирование вариантов рекомендаций.

Экспертиза, т.е. измерение или сравнение объектов по определению связана с каким-либо оцениванием объектов. Оценки бывают разных видов. Количественные оценки представляются с помощью абсолютной шкалы. Такие шкалы используются, когда результат измерений определяется однозначно (например, число студентов в аудитории).

В отличие от количественных оценок, соответствующих, как правило, объективным измерениям объективных показателей, балльные оценки обычно характеризуют субъективные мнения. Значения балльной шкалы представляют собой ограниченный ряд равноудаленных друг от друга чисел.

Балльные оценки бывают двух видов. Оценки первого вида производятся по объективному критерию, по общепринятому эталону, в соответствии с градациями этого эталона. Как правило, таковы оценки в спортивном судействе или правила присвоения рабочих разрядов. Эти оценки - оценки по балльной шкале.

Балльная оценка второго вида - это оценка, производимая, когда не только нет общепринятых эталонов, но и сомнительно даже наличие некоего единственного объективного критерия, субъективными отражениями которого являются оценки. В таком случае говорят о порядковой (или ранговой) шкале. Оценки, произведенные по ранговой шкале, имеет смысл сравнивать только по отношению «больше - меньше».

Следующий вид оценки - ранжирование. Под ранжированием понимают упорядочение объектов в соответствии с убыванием их предпочтительности (допускается указание на равноценность некоторых объектов). Примером ранжирования является определение призеров какого-либо конкурса. Отметим, что ранжирование представимо как оценка в ранговой шкале: рангом объекта (т.е. значением оценки) можно считать номер места, которое этот объект занимает в ранжировании при обратной нумерации мест. Этот способ оценки состоит в указании предпочтительного объекта в каждой паре объектов (иногда допускается объявление обоих объектов равноценными и несравнимыми).

Метод по парного сравнения применяется потому, что считается более легким качественное сравнение двух объектов, чем отражение предпочтения в балльной (или ранговой) шкале. Иногда при по парных сравнениях эксперту предлагается баллами оценить интенсивность своего предпочтения для каждой пары объектов. Для упорядочения объектов на основании качественного критерия иногда удобен метод средней точки: выбирается лучший и худший объекты; потом объект, который может быть расположен посередине между ними; потом объекты, которые могут быть расположены посередине между худшими и ранее найденным средним, а также посередине между лучшим и средним, и т.д.

Центральная парадигма интеллектуальных технологий сегодня - это обработка знаний. Системы, ядром которых является база знаний или модель предметной области, описанная на языке сверхвысокого уровня, приближенном к естественному, называют интеллектуальными.

Чаще всего интеллектуальные системы применяются для решения сложных задач, где основная сложность решения связана с использованием слабоформализованных знаний специалистов-практиков и где логическая (или смысловая), обработка информации превалирует над вычислительной. Например, понимание естественного языка, поддержка принятия решения в сложных ситуациях, постановка диагноза и рекомендации по методам лечения, анализ визуальной информации, управление диспетчерскими пультами и др.

Экспертные системы - наиболее распространенный класс интеллектуальных систем, ориентированный на тиражирование опыта высококвалифицированных специалистов в областях, где качество принятия решений традиционно зависит от уровня экспертизы, например, таких, как медицина, юриспруденция, геология, экономика, военное дело и др. Экспертные системы эффективны лишь в специфических «экспертных» областях, где важен эмпирический опыт специалистов.

Основные факторы, влияющие на целесообразность и эффективность разработки экспертных систем:

- нехватка специалистов, затрачивающих значительное время для оказания помощи другим;

- выполнение небольшой задачи требует многочисленного коллектива специалистов, поскольку ни один из них не обладает достаточным знанием;

- сниженная производительность, поскольку задача требует полного анализа сложного набора условий, а обычный специалист не в состоянии просмотреть (за отведенное время) все эти условия;

- большое расхождение между решениями самых хороших и самых плохих исполнителей;

- наличие экспертов, готовых поделиться своим опытом.

Главное отличие интеллектуальных систем и экспертных систем от других программных средств - это наличие базы знаний, в которой знания хранятся в форме, понятной специалистам в предметной области, и могут быть изменены и дополнены также в понятной форме. Это и есть языки представления знаний, создание которых до последнего времени являлось центральной проблемой при разработке экспертных систем.

Рисунок 3 - Структура экспертной системы

Обобщенная структура минимальной экспертной системы представлена на рисунке 3. Следует учесть, что реальные экспертные системы могут иметь более сложную структуру, однако блоки, изображенные на этом рисунке, непременно присутствуют в любой действительно экспертной системе, поскольку представляют собой стандарт структуры современной экспертной системы.

2.4 Выводы по главе

Глава посвящена исследованию методов восстановления пропущенных значений и структурирования неопределенностей во временных рядах. Рассмотрены следующие методы восстановления пропущенных значений: замена пропуска общим средним, замена пропуска средним из ближайших, метод сплайн-интерполяции, Zet-алгоритм. Под неопределенностью понимается: нечеткие множества, интервалы, временные ряды. В главе приведен обзор существующих методов структурирования неопределенностей.

3. Моделирование систем и процессов защиты информации в условиях неполноты и недостоверности исходных данных

3.1 Метод экспертного построения функций, принадлежности оценки уровня риска информационной системы

В настоящее время управление информационными рисками представляет собой одно из наиболее актуальных и динамично развивающихся направлений стратегического и оперативного менеджмента в области защиты информации. Его основная задача - объективно идентифицировать и оценить наиболее значимые для бизнеса информационные риски компании, а также адекватность используемых средств контроля рисков для увеличения эффективности и рентабельности экономической деятельности компании. Фактически риск представляет собой интегральную оценку того, насколько эффективно существующие средства защиты способны противостоять информационным атакам. Под термином «управление информационными рисками» обычно понимается системный процесс идентификации, контроля и уменьшения информационных рисков компаний в соответствии с определенными ограничениями российской нормативно-правовой базы в области защиты информации и собственной корпоративной политики безопасности. Считается, что качественное управление рисками позволяет использовать оптимальные по эффективности и затратам средства контроля рисков и средства защиты информации, адекватные текущим целям и задачам бизнеса компании.

Обычно выделяют две основные группы методов расчёта рисков информационной безопасности. Первая из них позволяет установить уровень риска путём оценки степени соответствия определённому набору требований по обеспечению информационной безопасности. В качестве источников таких требований могут выступать:

- нормативно-правовые документы предприятия, касающиеся вопросов информационной безопасности;

- требования действующего российского законодательства (руководящие документы ФСТЭК (Гостехкомиссии), СТР-К, требования ФСБ РФ, ГОСТы и др.);

- рекомендации международных стандартов (ISO 17799, OCTAVE, CoBIT и др.);

- рекомендации компаний-производителей программного и аппаратного обеспечения (Microsoft, Oracle, Cisco и др.).

Вторая группа методов оценки рисков информационной безопасности базируется на определении вероятности реализации атак, а также уровней их ущерба. В данном случае значение риска вычисляется отдельно для каждой атаки и в общем случае представляется как произведение вероятности проведения атаки на величину возможного ущерба от этой атаки. Значение ущерба определяется собственником информационного ресурса, а вероятность атаки вычисляется группой экспертов, проводящих процедуру аудита.

В настоящей работе предлагается метод экспертного построения, функций принадлежности оценки уровня риска информационной системе. Под уровнем риска при этом подразумевается уровень возможного ущерба, наносимого информационной системе.

Формирование модели угроз, определение взаимосвязи между угрозами и рисками информационной безопасности. Формирование модели угроз информационной безопасности состоит в выборе адекватной решаемой задаче классификации угроз и выделении наиболее распространенных классов из них.

В публикации классификацию угроз выполняют по 2 базовым признакам: по действию на характеристики безопасности информации и по природе источника.

По признаку «действие на характеристики безопасности информации» классификация угроз имеет вид:

- К - тип (угроза конфиденциальности);

- Ц - тип (угроза целостности);

- Д - тип (угроза доступности);

- КЦ - тип (угроза конфиденциальности и целостности);

- КД - тип (угроза конфиденциальности и доступности);

- ЦД - тип (угроза целостности и доступности);

- КЦД - тип (угроза конфиденциальности, целостности и доступности).

По признаку «природа источника» классификация угроз имеет вид:

- объективная (угроза, возникновение которой не зависит от прямой деятельности человека и связанная с разными стихийными природными явлениями);

- субъективная (угроза, возникновение которой зависит от деятельности человека).

Основным недостатком этих двух классификаций является зависимость угрозы от ресурса, на который она воздействует. При этом не отражаются возможные альтернативные сценарии развития угрозы.

В настоящей работе предлагается классифицировать угрозы информационной безопасности по признаку «способ распространения»:

- атаки с использованием вредоносного кода;

- сетевые атаки;

- атаки на получение несанкционированного доступа;

- злоупотребления полномочиями;

- сбои в работе аппаратуры;

- кражи и чрезвычайные ситуации;

- чрезмерное использование систем защиты, ухудшающие работу автоматизированной системы.

Уровень риска информационной безопасности предприятия определяется, как сказано ранее, уровнем ущерба, наносимого предприятию при реализации возможных видов угроз. Уровень ущерба представляет собой качественную характеристику. В таблице 1 приведена качественная шкала уровня ущерба компании.

Таблица 1 - Качественная шкала оценки уровня ущерба

№ п/п

Уровень ущерба

Описание

1

Малый

Приводит к незначительным потерям материальных активов, которые быстро восстанавливаются, или к незначительному влиянию на репутацию компании

2

Умеренный

Вызывает заметные потери материальных активов или к умеренному влиянию на репутацию компании

3

Ущерб средней тяжести

Приводит к существенным потерям материальных активов или значительному урону репутации компании

4

Большой

Вызывает большие потери материальных активов и наносит большой урон репутации компании

5

Критический

Приводит к критическим потерям материальных активов или к полной потере репутации компании на рынке, что делает невозможным дальнейшую деятельность организации

В настоящей работе предлагается метод получения оценки уровня ущерба информационной системе в зависимости от частости проявления той или иной угрозы. Такая оценка представляется в виде нечеткого множества, у которого носитель - уровень ущерба, функция принадлежности - степень проявления угрозы (частость).

Построение функций, принадлежности нечетких множеств уровня ущерба информационной системе. Основным понятием теории нечетких множеств является функция принадлежности. Поэтому определение степеней принадлежности элементов множеству и построение функции принадлежности является основным вопросом практических реализаций независимо от того, к какой предметной области они принадлежат. При решении задач защиты информации, моделирования процессов принятия решений в нечетких условиях и других прикладных задачах можно использовать различных методы формирования функции принадлежности. В работах приведены методы построения функции принадлежности, основной целью которых является формализация и интеграция исходных данных, сформированных экспертом (группой экспертов) в процессе оценивания параметров реальных объектов. Для эффективного решения указанных задач необходимо сделать правильный выбор нужного метода формирования функции принадлежности (с учетом ее класса) с целью использования возможных методов дальнейшей ее обработки.

Метод экспертного построения, функций принадлежности оценки уровня ущерба информационной системе состоит в следующем. Группе экспертов предлагается оценить зависимость частости появления выделенных видов угроз и соответствующего уровня ущерба предприятия. Такая зависимость представляет собой аналитическую функцию. Существуют 4 основных вида трендов (линейный, экспоненциальный, логарифмический, полиномиальный) функций такой зависимости, которые в общем случае можно представить в виде 3 видов линий:

1) линейно возрастающая;

2) нелинейная с монотонным возрастанием;

3) нелинейная с периодом возрастания и убывания.

В качестве иллюстрации на рисунке 4 приведены эти 3 вида линий.

Рисунок 4 - Виды функции, принадлежности типовых нечетких множеств уровня ущерба информационной системе


Подобные документы

Работы в архивах красиво оформлены согласно требованиям ВУЗов и содержат рисунки, диаграммы, формулы и т.д.
PPT, PPTX и PDF-файлы представлены только в архивах.
Рекомендуем скачать работу.