Метод анализа главных компонентов регрессионной модели измерений средствами нейронных сетей
Изучение пространственных характеристик АГК и структур НС при обработке ими стохастических сред, подбор алгоритмов. Рекомендаций по использованию разработанных адаптивных алгоритмов с корреляционными методами получения оценок для регрессионных моделей.
Рубрика | Программирование, компьютеры и кибернетика |
Вид | дипломная работа |
Язык | русский |
Дата добавления | 06.05.2011 |
Размер файла | 5,1 M |
Отправить свою хорошую работу в базу знаний просто. Используйте форму, расположенную ниже
Студенты, аспиранты, молодые ученые, использующие базу знаний в своей учебе и работе, будут вам очень благодарны.
(2.15)
Эту систему называют системой нормальных уравнений. Если U'RU -- невырожденная матрица, то
(2.16)
Нетрудно показать, что при в = в^ функций ошибок Е принимает минимальное значение. Это значение Е (в^) называется остаточной ошибкой (основанной на k наблюдениях).
Здесь уместно сделать несколько замечаний:
1) Конечно, уравнение (2.16) можно решить методами
вариационного исчисления:
или
при произвольном ?в (принцип ортогональности).
2) Прямое доказательство того, что Е достигает минимума, может быть основано на стандартном приеме анализа членов второго порядка по р. Из формулы (2.12) имеем
Очевидно, что при p, удовлетворяющем уравнению (2.16), Е достигает минимума.
3) В качестве мнемонического правила может оказаться удобным использовать то, что
умножается на U'R:
Так как второе слагаемое неизвестно, не измеряется и предполагается, что U и n статистически независимы, то это слагаемое отбрасывается. В результате получается оценка Р истинного значения b [см. формулу (2.15)]. Естественно, такой способ вывода уравнения (2.16) не показывает, в каком смысле оценка оптимальна.
Эта оценка обладает свойством линейности, поскольку
(2.17)
Из формул (6.31) и (6.24) следует, что
Поскольку входной сигнал и шум статистически независимы,
(2.18)
А так как уже предполагалось, что е[n] = 0, то оценка является и несмещенной:
Отсюда следует, что
т. е. математическое ожидание выхода модели равно выходу объекта без аддитивного шума.
Желательно определить еще одну характеристику оценки в [формула (2.16)] -- ее дисперсию. Интересно также оценить корреляцию между компонентами вектора 3. Все эти характеристики можно определить с помощью ковариационной матрицы
(2.19)
По-прежнему предполагается, что справедливо соотношение (6.24) и U и n статистически независимы. Тогда, используя формулу (6.32), находим
(2.20)
Следовательно,
Будет показано, что в нескольких практически интересных случаях это выражение можно существенно упростить. Главная диагональ матрицы состоит из оценок дисперсий оцениваемых параметров.
2.1.2 Оценки по методу наименьших квадратов
При использовании метода наименьших квадратов минимизируется выражение
(2.21)
Таким образом, в уравнении (2.11) и вытекающих из него уравнениях
,
и из формул (2.15), (2.16) и (2.20) получаем
(2.22)
или
(2.23)
и (2.24)
Если U -- квадратная матрица, т. е. если размер выборки равен числу оцениваемых параметров, и если матрица U имеет обратную, то
(2.25)
и (2.26)
С инженерной точки зрения этот случай не представляет особого интереса, поскольку случайные возмущения не учитываются. Для уменьшения влияния шумов размер выборки должен быть гораздо больше числа параметров. Если в уравнении (2.22) выразить все величины через Ui(j), то нетрудно получить
(2.27)
Ортогональность или ортонормальность пробных сигналов может привести к существенным упрощениям. В случае ортонормальности
-- единичная матрица
и , или
Можно дать простую геометрическую интерпретацию оценок метода наименьших квадратов для случая двумерного вектора параметров в (рис. 2.1). Необходимо минимизировать длину вектора
.
Рисунок 2.1 - Геометрическая интерпретация оценок метода наименьших квадратов для случая двумерного вектора параметров в
Если вектор е ортогонален к u1 и u2
или
Следовательно,
или
,
т. е. имеем уравнение (2.22).
2.2 Нейронные сети и статические характеристики
Поскольку в настоящее время нейронные сети с успехом используются для анализа данных, уместно сопоставить их со старыми хорошо разработанными статистическими методами. В литературе по статистике иногда можно встретить утверждение, что наиболее часто применяемые нейросетевые подходы являются ни чем иным, как неэффективными регрессионными и дискриминантными моделями. Мы уже отмечали прежде, что многослойные нейронные сети действительно могут решать задачи типа регрессии и классификации. Однако, во-первых, обработка данных нейронными сетями носит значительно более многообразный характер - вспомним, например, активную классификацию сетями Хопфилда или карты признаков Кохонена, не имеющие статистических аналогов. Во-вторых, многие исследования, касающиеся применения нейросетей в финансах и бизнесе, выявили их преимущества перед ранее разработанными статистическими методами. Рассмотрим подробнее результаты сравнения методов нейросетей и математической статистики.
2.3 Различие нейронных сетей и статистики
В чем же заключается сходство и различие языков нейрокомпьютинга и статистики в анализе данных. Рассмотрим простейший пример.
Предположим, что мы провели наблюдения и экспериментально измерили N пар точек, представляющих функциональную зависимость
Если попытаться провести через эти точки наилучшую прямую, что на языке статистики будет означать использование для описания неизвестной зависимости линейной модели (где е обозначает шум при проведении наблюдения), то решение соответствующей проблемы линейной регрессии сведется к нахождению оценочных значений параметров a,b минимизирующих сумму квадратичных невязок.
Если параметры a и b найдены, то можно оценить значение y для любого значения x, то есть осуществить интерполяцию и экстраполяцию данных.
Та же самая задача может быть решена с использованием однослойной сети с единственным входным и единственным линейным выходным нейроном. Вес связи a и порог b могут быть получены путем минимизации той же величины невязки (которая в данном случае будет называться среднеквадратичной ошибкой) в ходе обучения сети, например методом backpropagation. Свойство нейронной сети к обобщению будет при этом использоваться для предсказания выходной величины по значению входа.
Рисунок. 2.2 - Линейная регрессия и реализующий ее однослойный персептрон
При сравнении этих двух подходов сразу бросается в глаза то, что при описании своих методов статистика апеллирует к формулам и уравнениям, а нейрокомпьютинг к графическому описанию нейронных архитектур.
Еще одним существенным различием является то, что для методов статистики не имеет значения, каким образом будет минимизироваться невязка - в любом случае модель остается той же самой, в то время как для нейрокомпьютинга главную роль играет именно метод обучения. Иными словами, в отличие от нейросетевого подхода, оценка параметров модели для статистических методов не зависит от метода минимизации. В то же время статистики будут рассматривать изменения вида невязки, скажем как фундаментальное изменение модели
В отличие от нейросетевого подхода, в котором основное время забирает обучение сетей, при статистическом подходе это время тратится на тщательный анализ задачи. При этом опыт статистиков используется для выбора модели на основе анализа данных и информации, специфичной для данной области. Использование нейронных сетей - этих универсальных аппроксиматоров - обычно проводится без использования априорных знаний, хотя в ряде случаев оно весьма полезно. Например, для рассматриваемой линейной модели использование именно среднеквадратичной ошибки ведет к получению оптимальной оценки ее параметров, когда величина шума имеет нормальное распределение с одинаковой дисперсией для всех обучающих пар. В то же время если известно, что эти дисперсии различны, то использование взвешенной функции ошибки может дать значительно лучшие значения параметров.
Факторный анализ используется для изучения структуры данных. Основной его посылкой является предположение о существовании таких признаков - факторов, которые невозможно наблюдать непосредственно, но можно оценить по нескольким наблюдаемым первичным признакам. Так, например, такие признаки, как объем производства и стоимость основных фондов, могут определять такой фактор, как масштаб производства. В отличие от нейронных сетей, требующих обучения, факторный анализ может работать лишь с определенным числом наблюдений. Хотя в принципе число таких наблюдений должно лишь на единицу превосходить число переменных рекомендуется использовать хотя бы втрое большее число значение. Это все равно считается меньшим, чем объем обучающей выборки для нейронной сети. Поэтому статистики указывают на преимущество факторного анализа, заключающееся в использовании меньшего числа данных и, следовательно, приводящего к более быстрой генерации модели. Кроме того, это означает, что реализация методов факторного анализа требует менее мощных вычислительных средств. Другим преимуществом факторного анализа считается то, что он является методом типа white-box, т.е. полностью открыт и понятен - пользователь может легко осознавать, почему модель дает тот или иной результат. Связь факторного анализа с моделью Хопфилда можно увидеть, вспомнив векторы минимального базиса для набора наблюдений. Именно эти векторы являются аналогами факторов, объединяющих различные компоненты векторов памяти - первичные признаки.
Логистическая регрессия является методом бинарной классификации, широко применяемом при принятии решений в финансовой сфере. Она позволяет оценивать вероятность реализации (или нереализации) некоторого события в зависимости от значений некоторых независимых переменных - предикторов: В модели логистической регресии такая вероятность имеет аналитическую форму:
, где
Нейросетевым аналогом ее очевидно является однослойный персептрон с нелинейным выходным нейроном. В финансовых приложениях логистическую регрессию по ряду причин предпочитают многопараметрической линейной регрессии и дискриминантному анализу. В частности, она автоматически обеспечивает принадлежность вероятности интервалу [0,1], накладывает меньше ограничений на распределение значений предикторов. Последнее очень существенно, поскольку распределение значений финансовых показателей, имеющих форму отношений, обычно не является нормальным и "сильно перекошено". Достоинством нейронных сетей является то, что такая ситуация не представляет для них проблемы. Кроме того, нейросети нечувствительны к корреляции значений предикторов, в то время как методы оценки параметров регрессионной модели в этом случае часто дают неточные значения. В то же время многие нейронные парадигмы, такие как сети Кохонена или машина Больцмана не имеют прямых аналогов среди статистических методов.
2.4 Нейронные сети и статистические экспертные системы
Рассмотрим теперь отношения нейрокомпьютинга и экспертных систем. Обе эти технологии иногда относят к направлению Искусственный Интеллект, хотя строго говоря, термин искусственный интеллект появился в 70-е годы в связи с экспертными системами, как направления альтернативного нейронным сетям.
Его основатели - Марвин Минский и Эдвард Фейгенбаум посчитали излишней апелляцию к архитектуре мозга, его нейронным структурам, и декларировали необходимость моделирования работы человека со знаниями. Тем самым, поставив в центр внимания операции с формально-логическими языковыми структурами, они заведомо выбрали ориентацию на имитацию обработки информации левым полушарием мозга человека. Системы обработки таких формализованных знаний были названы экспертными, поскольку они должны были воспроизводить ход логических рассуждений эксперта (высокопрофессионального специалиста) в конкретной предметной области. Эти рассуждения проводятся с использованием правил вывода, которые инженер знаний должен извлечь у эксперта.
Заметим, что в настоящее время распространено более широкое толкование систем искусственного интеллекта. К ним относят не только экспертные , но и нечеткие системы, нейронные сети и всевозможные комбинации, такие как нечеткие экспертные системы или нечеткие нейронные системы. Отдельным направлениями, выделяются также эвристический поиск, в рамках которого в 80-е годы Ньюэллом и Саймоном был разработан Общий Решатель Задач (GPS - General Problem Solver), а также обучающиеся машины (Ленат, Холланд). И если GPS не мог решать практические задачи, то машинная обучающаяся система EURISCO внесла значительный вклад в создание СБИС, изобретя трехмерный узел типа И/ИЛИ.
Однако, экспертные системы претендовали именно на решение важных прикладных задач прежде всего в таких областях, как медицина и геология. При этом соответствующая технология в сочетании с нечеткими системами была в 1978 году положена японцами в основу программы создания компьютеров 5-го поколения.
Парадокс искусственного интеллекта заключается в том, что как только некоторая, кажущаяся интеллектуальной, деятельность оказывается искусственно реализованной, она перестает считаться интеллектуальной. В этом смысле наибольшие шансы остаться интелелктуальными имеют как раз нейронные сети, из которых еще не извлечены артикулированные знания.
Сопоставление экспертных систем и нейрокомпьютинга выявляет различия, многие из которых характерны для уже отмечавшихся в первой лекции различий обычных компьютеров (а экспертные системы реализуются именно на традиционных машинах, главным образом на языке ЛИСП и Пролог) и нейрокомпьютеров
Таблица 1. Сравнение методов нейронных сетей и экспертных систем
Нейронные сети |
Экспертные системы |
||
Аналогия |
правое полушарие |
левое полушарие |
|
Объект |
данные |
знания |
|
Вывод |
отображение сетью |
правила вывода |
Важным преимуществом нейронных сетей является то, что разработка экспертных систем, основанных на правилах требует 12-18 месяцев, а нейросетевых - от нескольких недель до месяцев.
Рассматривая извлечение знаний из обученных нейронных сетей мы уже показали, что представление о них, как о черных ящиках, не способных объяснить полученное решение (это представление иногда рассматривается как аргумент в пользу преимущества экспертных систем перед нейросетями), неверно. В то же время, очевидно, что, как и в случае мозга, в котором левое и правое полушарие действуют сообща, естественно и объединение экспертных систем с искусственными нейронными сетями. Подобные синтетические системы могут быть названы нейронными экспертными системами - этот термин использовал Иржи Шима, указавший на необходимость интеграции достоинств обоих типов систем. Такая интеграция может осуществляться двояким образом. Если известна только часть правил, то можно либо инициализировать веса нейронной сети исходя из явных правил, либо инкорпорировать правила в уже обученные нейронные сети. Шима предложил использовать и чисто коннекционистский методику построения нейронных эксперных систем, которая обладает таким достоинством, как возможность работы с неполными данными (ситуация типичная для реальных баз данных). Такой возможностью обладают введенные им сети интервальных нейронов.
2.5 Сети интервальных нейронов
Ситуация, в которой некоторые данные не известны или не точны, встречается достаточно часто. Например, при оценке возможностей той или иной фирмы, можно учитывать ее официально декларируемый капитал, скажем в 100 миллионов, но лучше всего считать, что в действительности его величина является несколько большей и меняется в интервале от 100 до 300 млн. Удобно ввести в данном случае специальные нейроны, состояния которых кодируют не бинарные или непрерывные значения, а интервалы значений. В случае, если нижняя и верхняя граница интервала совпадают, то состояния таких нейронов становятся аналогичными состояниям обычных нейронов.
Для интервального нейрона i на каждый его вход j подается не одно , а пара значений, определяющая границы интервала, в котором лежит величина воздействия j-го нейрона. Воздействие, оказываемое на i-й нейрон со стороны всех связанных с ним нейронов само лежит в интервале , где
,
,
- обратная температура.
Интервальное значение, которое принимает i-й нейрон при данном воздействии, равно
,
где
Передаточная функция интервального нейрона приблизительно отражает идею монотонности по отношению к операции интервального включения. Это означает, что при , если вход j-го нейрона лежит в интервале , то выход i- го нейрона, определенный по классической функции Ферми, обязательно попадет в интервал . Интервальные нейроны могут являться элементами многослойных персептронов. В этом случае их состояния вычисляются последовательно, начиная от входного слоя к выходному. Для сетей интервальных нейронов может быть построено обобщение метода обратного распространения ошибки, описание которого выходит за рамки нашего курса.
2.6 Сети и свойства численных структур регрессионного анализа
Простой итерационный алгоритм сингулярного разложения матриц допускает простую высокопараллельную (в том числе, нейросетевую) реализацию. Сингулярное разложение матриц (англ. Singular value decomposition) необходимо для решения многих задач анализа данных. В том числе, анализ главных компонент сводится к сингулярному разложению матрицы центрированных данных.
2.6.1 Идея сингулярного разложения матрицы данных
Если -- матрица, составленная из векторов-строк центрированных данных, то выборочная ковариационная матрица
и задача о спектральном разложении ковариационной матрицы превращается в задачу о сингулярном разложении матрицы данных X.
Число у0 называется сингулярным числом матрицы тогда и только тогда, когда существуют правый и левый сингулярные векторы: такие -мерный вектор-строка и -мерный вектор-столбец (оба единичной длины), что выполнено два равенства:
;
Пусть -- ранг матрицы данных. Сингулярное разложение матрицы данных X-- это её представление в виде
где -- сингулярное число, -- соответствующий правый сингулярный вектор-столбец, а -- соответствующий левый сингулярный вектор-строка (). Правые сингулярные векторы-столбцы , участвующие в этом разложении, являются векторами главных компонент и собственными векторами эмпирической ковариационной матрицы , отвечающими положительным собственным числам .
Хотя формально задачи сингулярного разложения матрицы данных и спектрального разложения ковариационной матрицы совпадают, алгоритмы вычисления сингулярного разложения напрямую, без вычисления спектра ковариационной матрицы, более эффективны и устойчивы. Это следует из того, что задача сингулярного разложения матрицы лучше обусловлена, чем задача разложения матрицы : для ненулевых собственных и сингулярных чисел
Простой итерационный алгоритм сингулярного разложения
Основная процедура -- поиск наилучшего приближения произвольной m x n матрицы матрицей вида (где b-- m-мерный вектор, а a-- n-мерный вектор) методом наименьших квадратов:
Решение этой задачи дается последовательными итерациями по явным формулам. При фиксированном векторе значения , доставляющие минимум форме F(b,a), однозначно и явно определяются из равенств
Аналогично, при фиксированном векторе определяются значения:
B качестве начального приближения вектора возьмем случайный вектор единичной длины, вычисляем вектор b, далее для этого вектора вычисляем вектор и т. д. Каждый шаг уменьшает значение F(b,a). В качестве критерия остановки используется малость относительного уменьшения значения минимизируемого функционала F(b,a)за шаг итерации (?F/F) или малость самого значения F.
В результате для матрицы X=()получили наилучшее приближение матрицей вида (здесь верхним индексом обозначен номер итерации). Далее, из матрицы вычитаем полученную матрицу , и для полученной матрицы уклонений вновь ищем наилучшее приближение этого же вида и т. д., пока, например, норма не станет достаточно малой. В результате получили итерационную процедуру разложения матрицы X в виде суммы матриц ранга 1, то есть. Полагаем и нормируем векторы : В результате получена аппроксимация сингулярных чисел и сингулярных векторов (правых -- и левых -- ).
К достоинствам этого алгоритма относится его исключительная простота и возможность почти без изменений перенести его на данные с пробелами, а также взвешенные данные.
Существуют различные модификации базового алгоритма, улучшающие точность и устойчивость. Например, векторы главных компонент при разных l должны быть ортогональны «по построению», однако при большом числе итерации (большая размерность, много компонент) малые отклонения от ортогональности накапливаются и может потребоваться специальная коррекция на каждом шаге, обеспечивающая его ортогональность ранее найденным главным компонентам.
Для квадратных симметричных положительно определённых матриц описанный алгоритм превращается в метод прямых итераций для поиска собственных векторов.
2.6.2 Линейный МНК
Задача аппроксимации линейным МНК в матричной форме записывается, как
Иногда к задаче добавляются ограничения:
Здесь c обозначает искомый вектор коэффициентов. Столбцы матрицы F соответствуют базисным функциям (всего M столбцов), строки - экспериментальным точкам (всего N строк), Fij содержит значение j-ой базисной функции в i-ой точке набора данных. Вектор y содержит значения аппроксимируемой функции в точках, соответствующих строкам матрицы F. Матрица W является диагональной матрицей весовых коэффициентов, элементы которой соответствуют важности той или иной точки. Матрица C задает дополнительные ограничения, которым должна удовлетворять аппроксимируемая функция - минимум ошибки ищется среди функций, точно удовлетворяющих заданным ограничениям. В такой формулировке задача сводится к решению системы линейных уравнений. Полученная система линейных уравнений, как правило, является переопределенной - число уравнений намного больше числа неизвестных. Для решения используется основанный на QR-разложении солвер. Сначала матрица A представляется в виде произведения прямоугольной ортогональной матрицы Q и квадратной верхнетреугольной матрицы R. Затем решается система уравнений Rx = Q Tb. Если матрица R вырождена, алгоритм использует SVD-разложение, которое позволяет добиться решения независимо от свойств матрицы коэффициентов. Трудоемкость решения такой задачи составляет O(N·M 2).
Модуль lsfit содержит четыре подпрограммы для линейной аппроксимации: LSFitLinear (простейшая задача - нет ограничений, W - единичная матрица), LSFitLinearW (взвешенная аппроксимация без ограничений), LSFitLinearC (аппроксимация с ограничениями, без весовых коэффициентов) и LSFitLinearWC (аппроксимация с индивидуальными весовыми коэффициентами и ограничениями).
2.7 Нелинейные решения проблем стандартного МНК
2.7.1 Аппроксимация линейным или нелинейным МНК
Метод наименьших квадратов (часто называемый МНК) обычно упоминается в двух контекстах. Во-первых, широко известно его применение в регрессионном анализе, как метода построения моделей на основе зашумленных экспериментальных данных. При этом помимо собственно построения модели обычно осуществляется оценка погрешности, с которой были вычислены её параметры, иногда решаются и некоторые другие задачи. Во-вторых, МНК часто применяется просто как метод аппроксимации, без какой-либо привязки к статистике. На этой странице МНК рассматривается как метод аппроксимации. Также следует отметить, что модуль lsfit, рассматриваемый на этой странице, решает задачи общего вида. Модули для работы с полиномами, сплайнами, рациональными функциями содержат подпрограммы схожей функциональности, позволяющие осуществлять аппроксимацию этими функциями.
2.7.2 Нелинейный МНК: с использованием гессиана или без него
Нелинейная задача МНК значительно сложнее линейной: аппроксимант уже не представляется в виде линейной комбинации базисных функций. Для аппроксимации используется функция общего вида, зависящая от M аргументов и K параметров:
Нам известны значения аргументов x в N точках, требуется найти значения параметров c, при которых отличие f от заданных значений y будет минимально. Задача при этом имеет следующую формулировку:
Для решения используется метод Левенберга-Марквардта, реализованный в модуле minlm. Алгоритм использует ту же схему обратной коммуникации для вычисления значения функции, что и модуль minlm - вам необходимо ознакомиться с ней перед использованием алгоритма. Как и в модуле minlm, пользователь может выбирать несколько схем оптимизации: FG (использование функции f и её градиента) и FGH (использование функции, градиента и гессиана). Пользователь может задать индивидуальные весовые коэффициенты (на что указывает суффикс W) или решать задачу без них. Итого имеем четыре версии подпрограмм для оптимизации: LSFitNonlinearWFG, LSFitNonlinearFG, LSFitNonlinearWFGH, LSFitNonlinearFGH.
В случае оптимизации с использованием схемы FG (градиент известен, гессиан неизвестен) возможны две ситуации: "дорогой" градиент, трудоемкость вычисления которого равна O((M+K) 2), и "дешевый" градиент, трудоемкость вычисления которого существенно ниже, чем O((M+K) 2). Первый вариант - это градиент, вычисленный при помощи разностной схемы, либо аналитический градиент сложной функции. Второй вариант - аналитический градиент функции с регулярной структурой, допускающей ускоренное вычисление градиента (пример: обучение нейронных сетей). Во втором случае можно использовать гибридный вариант алгоритма Левенберга-Марквардта, входящий в состав ALGLIB - этот вариант позволяет значительно ускорить решение задач с "дешевыми" градиентами. "Стоимость" градиента обозначается параметром CheapFG подпрограмм LSFitNonlinearWFG и LSFitNonlinearFG.
Замечание 1
Если для оптимизации используется гессиан, то всегда используется гибридный алгоритм - в таких задачах его применение всегда оправдано.
Замечание 2
Предпочтительным вариантом является использование аналитического градиента. Из-за возможных проблем с низкой точностью не рекомендуется использовать для вычисления градиента разностную схему. Если вы все же используете её, ни в коем случае не используйте двухточечную схему - используйте как минимум четырехточечную схему.
2.7.3 Нелинейный МНК как обратная коммуникация
Алгоритм аппроксимации в ходе своей работы должен получать значения функции/градиента/... в выбранных им точках. В большинстве программных пакетов эта проблема решается путем передачи указателя на функцию (C++, Delphi) или делегата (C#), который осуществляет эту операцию.
Пакет ALGLIB, в отличие от других библиотек, использует для решения этой задачи обратную коммуникацию. Когда требуется вычислить значение функции (или её производных), состояние алгоритма сохраняется в специальной структуре, после чего управление возвращается в вызвавшую программу, которая осуществляет все вычисления и снова вызывает вычислительную подпрограмму.
Таким образом, работа с алгоритмом аппроксимации осуществляется в следующей последовательности:
1. Подготовка структуры данных LSFitState при помощи одной из подпрограмм инициализации алгоритма (LSFitNonlinearWFG, LSFitNonlinearFG, LSFitNonlinearWFGH, LSFitNonlinearFGH).
2. Вызов подпрограммы LSFitNonlinearIteration.
3. Если подпрограмма вернула False, работа алгоритма завершена и минимум найден (сам минимум может быть получен при помощи подпрограммы LSFitNonlinearResults).
4. Если подпрограмма вернула True, подпрограмма требует информацию о функции. В зависимости от того, какие поля структуры LSFitState установлены в True (ниже этот вопрос рассмотрен более подробно), вычислите функцию/градиент/гессиан.
5. После того, как вся требуемая информация загружена в структуру LSFitState, требуется повторно вызвать подпрограмму LSFitNonlinearIteration.
Для обмена информацией с пользователем используются следующие поля структуры LSFitState:
· LSFitState.X[0..M-1] - массив, хранящий координаты точки, информация о которой запрашивается алгоритмом
· LSFitState.C[0..K-1] - массив, хранящий значение параметров функции
· LSFitState.F - в это поле следует поместить значение функции F (если оно было запрошено)
· LSFitState.G[0..K-1] - в это поле следует поместить градиент df(x,c)/dci (если он был запрошен)
· LSFitState.H[0..K-1,0..K-1] - в это поле следует поместить гессиан d 2f(x,c)/dcij ^2 (если он был запрошен)
В зависимости от того, что именно требуется вычислить, подпрограмма LSFitNonlinearIteration может устанавливать в True одно и только одно из следующих полей:
· NeedF - сигнализирует о том, что требуется вычислить значение функции F
· NeedFG - сигнализирует о том, что требуется вычислить значения функции F и градиента F
· NeedFGH - сигнализирует о том, что требуется вычислить значение функции F, градиент F и гессиан F
2.8 Решение параметров регрессионного уравнения с использованием аппроксимации ковариационной матрицы по данным ГК при обучении НС
Актуальность работы определяется проблемой регрессионных методов, когда оценка параметров затруднена дефицитом априорной информации о помехах или обратная автоковариационная матрица входных регрессоров является вырожденной. Целевое направление работы - создание алгоритма оценки параметров регрессионной модели измерений при аппроксимации дисперсионных характеристика методом главных компонентов. Основная решаемая задача заключается в нахождении соотношения характеристик главных компонентов и регрессионных уравнений. Эффективность достигается за счет решения главных компонентов средствами нейронных сетей на основе фильтра Хебба.
пространственный стохастический адаптивный алгоритм регрессионный
Рисунок 2.3 - Алгебраические компоненты модели ГК и регрессионного анализа
Конкретно в текущей работе было выполнены следующие этапы построения представляемого метода (рис. 2.3):
- рассмотрение алгебраической модели данных метода главных компонентов для выявления структурных соотношений с регрессионным анализом;
- анализ структуры и метода обучения нейронных сетей для решения аппроксимации ковариации входного сигнала методом главных компонент;
- поиск оптимального параметра отклика регрессионными методами и по данным анализа главных компонентов;
- решение поверхности отклика по данным АГК, в условиях, когда обратная матрица автоковариации входных регрессоров вырождена.
Рисунок 2.4 - Отношения ГК и входного пространства
В основе метода главных компонентов находится задача наилучшей аппроксимации конечного множества точек линейными многообразиями типа прямых и плоскостей (рис. 2.4). Эти линейные многообразия определяются ортонормированным набором векторов, линейных по параметрам. По входным координатам, относительно каждого базиса многообразия, рассчитывается минимальная квадратичная сумма до их проекции. Таким образом, формируется главная компонента, связанная с максимальной дисперсией проекции входа относительно элемента базиса. Совокупность проекций отдельного направления и их главная компонента в свою очередь образуют собственные подпространства, ортогональные по отношению друг к другу.
Рисунок 2.5 - Эффект решения задачи ГК для проблем регрессионного анализа
Таким образом, формируется распределение максимальных дисперсий аппроксимируемых точек в пространстве компонент (рис. 2.5). Проекция искажений, или помех, ортогональна и не коррелированны с данными. То есть дисперсия помех минимальна, что соответствует задачам регрессионного анализа. Но расчет всех главных компонентов - аналитически сложная задача оптимизации. Эффект ее решения это нахождение:
- максимальной дисперсии полезного сигнала;
- системы некоррелированных координат;
- аппроксимация ковариационной матрицы диагональю из дисперсий проекций по данным ГК.
При этом ортонормированный базис для собственных векторов существует всегда. Даже если спектр ковариационной матрицы вырожден, то есть когда она является сингулярной и не решает оценки параметров регрессионной модели.
Рисунок 2.6 - Алгоритм анализа главных компонентов обучением НС на основе фильтра Хебба
С целью анализа главных компонентов для входного сигнала произвольной размерности возможно применение технологии обучения нейронных сетей (рис. 2.6). Сеть прямого распространения с одним слоем линейных нейронов, модифицируемая по обобщенному правиле Хебба, образует устройство - фильтр Хебба. Фильтр извлекает главные компоненты из входного сигнала в пространстве собственных векторов, которыми являются веса нейронов. Число компонент соответствует числу ортосистем, то есть числу весовых систем и соответственно равно числу нейронов сети. Таким образом, всегда будет достижима задача аппроксимации ковариационной матрицы входного случайного сигнала заданной размерности.
Рисунок 2.7 - Поверхность отклика при матричном расчете и аппроксимации главными компонентами ковариационной матрицы факторов
В качестве практического эксперимента была выбрана аппроксимация квадратичным полиномом выхода линейной системы с нормально распределенной аддитивной помехой (рис. 2.7). Дисперсия помехи менялась в пределах 3-10% от дисперсии сигнала. Решение определялось в фактор-пространстве поверхности оптимального отклика. Входными данными являлись факторы регрессионного выражения отклика. Оптимальное значение отклика рассчитывалось при оценке параметров МНК. В расчетах использовалась стандартная матрица ковариации и ее аппроксимация диагональным оператором главных компонент. Компоненты получены по результатам настройки весов нейронной сети алгоритмом Хебба с использованием пакета Matlab. Отклонение параметров модели отклика на данных диагональной матрицы главных компонент от стандартных расчетов составило в среднем 2.2%.
Рисунок 2.8 - Решение отклика в условиях аппроксимации автоковарационной матрицы входного сигнала произвольной размерности
Далее был сделан переход к квадратичному полиному размерностью в три входных фактора. В этих условиях были смоделированы значения факторов, когда обратная ковариационная матрица входа становится вырожденной и решение регрессии по МНК не выполнимо (рис. 2.8). После чего матрица аппроксимировалась алгоритмом Хебба на модели НС. Графическая демонстрация отклика производится при стабилизированном третьем факторе, что позволяет наблюдать поверхность отклика по данным главных компонентов.
Итак, в результате исследования и апробации решения главных компонентов на модели НС, практически получен метод содействия регрессионному анализу измерений. Метод позволяет оценивать параметры на отношении дисперсий ковариации и аппроксимированной главными компонентами автоковариации входного сигнала произвольной размерности. Подобное применение современных технологий на алгоритмах обучения нейронных сетей выполняет достижение цели, определенной в дипломной работе.
Заключение
Произведенная теоретическая и практическая часть (в виде алгоритмического программирования) работы достигает цели, поставленной при дипломном проектировании. В качестве объекта проектирования выступали регрессионные среды измерений, где параметрическая идентификация на принципах минимизации дисперсионных распределений матричного функционала ошибки затруднена стандартными регрессионными методами.
Новизной результата стали применение формулы самообучающейся нейронной сети к регрессионным средам; альтернатива методам поиска стационарных значений (минимальных) функционала (скаляра) ошибки в векторном пространстве данных как метод поиска экстремальных дисперсий в векторном пространстве признаков (при той же ограниченной Евклидовой норме вектора помех).
В дипломной работе была разработана схему адаптации метода анализа главных компонентов, решаемого на основе нейронных сетей, к регрессионному анализу стохастических сред, где корреляционные методы оценок затруднены из-за плохой обусловленности ортогональной матрицы автоковариаций. В результате выполнения дипломной работы были получены алгоритмы на основе метода анализа главных компонентов для получения дисперсионных распределений стохастических сред моделируемых сигналов и систем, позволяющие с помощью принципов спектрального анализа содействовать оценке параметров регрессионных моделей.
Библиографический список использованной литературы
1. Саймон Хайкин. Нейронные сети. Москва, Вильямс, 2006.
2. Эйкхофф П. Основы идентификации систем управления. Москва, Мир. 1975.
3. Бокс Дж., Дженкинс Г. Анализ временных рядов, прогноз и управление. - М.: Мир, 1974. - 193 с.
4. Кацюба О.А., Гущин А.В. О состоятельности оценок параметров многомерной линейной регрессии на основе нелинейного метода наименьших квадратов // Труды IV Международной конференции «Идентификация систем и задачи управления» SICPRO'05 . Статья - Москва, 25-28 января 2005 г. Институт проблем управления им. В.А. Трапезникова РАН, 2005, с. 279-284.
5. Кацюба О.А., Гущин А.В. Оценивание параметров многомерной линейной авторегрессии // XI международная конференция «Математика, компьютер, образование». Дубна, 26-31 января 2004 г. МГУ, Пущинский центр биологических исследований РАН, институт прикладной математики им.М.В. Келдыша РАН: Тез. докл. - Москва-Ижевск, 2004. Выпуск № 11, с.-107.
6. Кацюба О.А., Гущин А.В. Численные методы определения оценок параметров многомерного линейного разностного уравнения // XVIII Международная научная конференция «Математические методы в технике и технологиях». Статья - Казань, 31 мая - 2 июня 2005г. Казанский государственный технологический университет, 2005, с.156-159.
Размещено на Allbest.ru
Подобные документы
Диагностический анализ изучения алгоритмов обучения нейронных сетей "с учителем". Сбор входных и выходных переменных для наблюдений и понятие пре/пост процессирования. Подготовка и обобщение многослойного персептрона, модель обратного распространения.
курсовая работа [249,3 K], добавлен 22.06.2011Изучение методов разработки систем управления на основе аппарата нечеткой логики и нейронных сетей. Емкость с двумя клапанами с целью установки заданного уровня жидкости и построение нескольких типов регуляторов. Проведение сравнительного анализа.
курсовая работа [322,5 K], добавлен 14.03.2009- Разработка алгоритмов и программ для определения сходства семантических сетей на основе их сложности
Семантические сети как модели представления знаний. Основные методы определения сходства графовых моделей систем. Метод решения задач определения сходства семантических сетей на основе их сложности. Разработка алгоритмов и их программная реализация.
дипломная работа [1,3 M], добавлен 17.12.2011 Критерии и основные стратегии планирования процессора. Разработка моделей алгоритмов SPT (Shortest-processing-task-first) и RR (Round-Robin). Сравнительный анализ выбранных алгоритмов при различных условиях и различном количестве обрабатываемых данных.
курсовая работа [179,3 K], добавлен 21.06.2013Анализ характеристик объекта компьютеризации. Разработка структур данных, алгоритмов и программного обеспечения системы управления базой данных. Особенности синтеза структур данных. Разработка алгоритмов системы и оценка результатов тестирования.
курсовая работа [37,0 K], добавлен 07.12.2010Описание формальной модели алгоритма на основе рекурсивных функций. Разработка аналитической и программной модели алгоритма для распознающей машины Тьюринга. Разработка аналитической модели алгоритма с использованием нормальных алгоритмов Маркова.
курсовая работа [1,5 M], добавлен 07.07.2013Обзор рекурсивных алгоритмов с позиции теории алгоритмов, теории сложности, с точки зрения практического программирования. Имитация работы цикла с помощью рекурсии. Способы изображения древовидных структур. Синтаксический анализ арифметических выражений.
курсовая работа [432,2 K], добавлен 16.01.2013Создание схем алгоритмов и составление программы на языке Pascal для вычисления значений заданных функций. Сущность и порядок нахождения значения определенного интеграла. Анализ работы подпрограмм. Разработка тестов для проверки правильности алгоритмов.
контрольная работа [831,0 K], добавлен 24.11.2013Описание технологического процесса напуска бумаги. Конструкция бумагоделательной машины. Обоснование применения нейронных сетей в управлении формованием бумажного полотна. Математическая модель нейрона. Моделирование двух структур нейронных сетей.
курсовая работа [1,5 M], добавлен 15.10.2012Сущность и экономическое обоснование, методы и подходы к прогнозированию валютного курса. Описание технологии интеллектуальных вычислений. Применение генетических алгоритмов для настройки архитектуры нейронных сетей. Основные способы улучшения модели.
курсовая работа [1,3 M], добавлен 26.03.2016