Исследование зависимости речевых параметров от психоэмоционального состояния человека

Теории возникновения эмоций. Алгоритмы расчёта основных характеристик речевого сигнала. Методы исследования эмоциональной речи. Cегментация рынка программы автоматической идентификации психоэмоционального состояния. База данных эмоциональной речи EMO-DB.

Рубрика Психология
Вид дипломная работа
Язык русский
Дата добавления 20.12.2012
Размер файла 2,0 M

Отправить свою хорошую работу в базу знаний просто. Используйте форму, расположенную ниже

Студенты, аспиранты, молодые ученые, использующие базу знаний в своей учебе и работе, будут вам очень благодарны.

2.1.4 Расчёт нелинейных характеристик на основе оператора ТЕО

Большинство речевых параметров являются производными от линейной модели речеобразования, которая предполагает, что поток воздуха распространяется через речевой тракт как плоская волна. Этот пульсирующий поток и является источником речеобразования. В соответствии с теорией, предложенной Теагером [12], это предположение, может не выполняться, так как поток расщепляется, образуя сопутствующие вихри, распределённые в голосовом тракте. Теагер предположил, что реальный источник речеобразования - это нелинейные взаимодействия вихревого потока. Считается, что изменения в физиологии речевой системы, вызванные эмоциональными состояниями, вызывают вихревые взаимодействия потоков в речевом тракте. Таким образом, нелинейные речевые характеристики необходимы для классификации эмоциональной речи.

Основываясь на теории простой колебательной системы «струна-груз», Теагер предложил энергетический оператор для измерения энергии речи, которая описывается нелинейным процессом. Этот оператор получил название ТЕО (Teager Energy Operator). Форма оператора была предложена Кайзером [29], и имеет вид

(2.15)

где - непрерывный речевой сигнал.

Для сигнала, дискретного во времени, Кайзер определил оператор ТЕО в виде

(2.16)

где - это дискретный речевой сигнал. Например, для непрерывного сигнала , оператор ТЕО является постоянным , а для дискретного эквивалентного сигнала , ТЕО определяется, как .

Оператор ТЕО обычно применяется к отфильтрованной полосовым фильтром речи, так как он отражает энергию нелинейного потока для одной резонирующей частоты. Хотя, на выходе фильтра сигнал всё ещё содержит более одной частотной компоненты, он может рассматриваться как амплитудно-модулированный (АМ) и частотно-модулированный (ЧМ) сигнал На выходе оператора может быть приведена к виду

(2.17)

ТЕО используется для разложения АМ-ЧМ сигнала на их амплитудно модулированные и частотно-модулированные компоненты в пределах определённой полосы частот, с помощью выражения

(2.18)

(2.19)

где - разностный сигнал во временной области;

- оператор ТЕО;

- частотно-модулированная компонента на участке n;

- амплитудно-модулированная компонента на участке n.

На основе этих заключений, Марагос и др. [30] предложил использовать нелинейную модель, которая представляет речевой сигнал в виде

(2.20)

где

(2.21)

включает в себя амплитудно-модулированную и частотно модулированную компоненты, представляя резонанс в m-ой форманте с несущей частотой . В этом выражении - значение амплитуды, изменяющейся со временем, и - частотно-модулированный сигнал m-ой форманты.

2.3 Методы объективного анализа основных характеристик речевого сигнала

2.3.1 Однофакторный дисперсионный анализ ANOVA

Однофакторный дисперсионный анализ используется в тех случаях, когда есть в распоряжении три или более независимые выборки, полученные из одной генеральной совокупности путем изменения какого-либо независимого фактора, для которого по каким-либо причинам нет количественных измерений [32, 33, 34].

Для этих выборок предполагают, что они имеют разные выборочные средние и одинаковые выборочные дисперсии. Поэтому необходимо ответить на вопрос, оказал ли этот фактор существенное влияние на разброс выборочных средних или разброс является следствием случайностей, вызванных небольшими объемами выборок. Другими словами, если выборки принадлежат одной и той же генеральной совокупности, то разброс данных между выборками (между группами) должен быть не больше, чем разброс данных внутри этих выборок (внутри групп).

Пусть - элемент () - выборки ()

где - число выборок, - число данных в - выборке. Тогда - выборочное среднее k - выборки определяется по формуле

(2.22)

Общее среднее вычисляется по формуле

, где (2.23)

Основное тождество дисперсионного анализа имеет следующий вид

Q=Q1+Q2, (2.24)

где Q1 - сумма квадратов отклонений выборочных средних от общего среднего (сумма квадратов отклонений между группами); Q2 - сумма квадратов отклонений наблюдаемых значений от выборочной средней (сумма квадратов отклонений внутри групп); Q - общая сумма квадратов отклонений наблюдаемых значений от общего среднего .

Расчет этих сумм квадратов отклонений осуществляется по следующим формулам

, (2.24)

(2,26)

(2.27)

В качестве критерия необходимо воспользоваться критерием Фишера

. (2.28)

Если расчетное значение критерия Фишера будет меньше, чем табличное значение - нет оснований считать, что независимый фактор оказывает влияние на разброс средних значений, в противном случае, независимый фактор оказывает существенное влияние на разброс средних значений (л - уровень значимости, уровень риска, обычно составляет л=0,05).

2.3.2 Метод многомерного шкалирования

В основе многомерного шкалирования лежит идея геометрического представления стимульного множества [39]. Предположим, что нам задано координатное пространство, каждая ось которого соответствует одному из искомых факторов. Каждый стимул представляется точкой в этом пространстве, величины проекций этих точек на оси соответствуют значениям или степеням факторов, характеризующих данный стимул. Чем больше величина проекций, тем большим значением фактора обладает стимул. Мера сходства между двумя стимулами обратна расстоянию между соответствующими им точками. Чем ближе стимулы друг к другу, тем выше мера сходства между ними (и ниже мера различия), далеким точкам соответствует низкая мера сходства. Чтобы точным образом измерить близости, необходимо ввести метрику в искомом координатном пространстве; выбор этой метрики оказывает большое влияние на результат решения. Обычно используется метрика Минковского [35]:

(2.29)

Где - размерность пространства, - расстояние между точками, соответствующими му и му стимулам,- величины проекций й и й точек на ю ось. Наиболее распространёнными её случаями являются: евклидова метрика (p=2)

(2.30)

и метрика «city-block» (p=1)

(2.31)

В некоторых случаях пользуются метрикой доминирования (р стремится к бесконечности):

(2.32)

Использование равномерных метрик предполагает, что при оценке сходств (различий) субъект в одинаковой мере учитывает все факторы. Когда же имеется основание утверждать, что факторы неравноценны для индивида, и он учитывает их в разной степени, прибегают к взвешенной метрике, где каждому фактору приписывается определенный вес. Разные индивиды могут принимать во внимание разные факторы. Тогда каждый индивид характеризуется своим собственным набором весов . Взвешенная метрика Минковского имеет вид

(2.33)

Такая модель называется «индивидуальным шкалированием» или «моделью взвешенных факторов». Геометрически она интерпретируется следующим образом. Пусть в координатном пространстве имеется конфигурация точек, отражающая восприятие некоторого «среднего индивида» в группе. Для того, чтобы получить пространство восприятия -го субъекта, необходимо растянуть «среднюю конфигурацию» в направлении тех осей, для которых , и сжать в направлении осей, для которых . Например, если в пространстве двух факторов для «среднего индивида» все стимулы лежат на окружности, то для индивида, характеризующегося весами , эти стимулы будут располагаться на эллипсе, вытянутом вдоль горизонтальной оси, а для индивида, характеризующегося весами на эллипсе, вытянутом вдоль вертикальной оси.

Многомерное шкалирование предлагает геометрическое представление стимулов в виде точек координатного пространства минимально возможной размерности. Существует два типа моделей: дистанционные и векторные. В дистанционных моделях исходные различия должны быть приближены расстояниями, в большинстве случаев используют привычное евклидово расстояние

(2.34)

В векторных моделях меры близости или связи - величины, обратные различиям, аппроксимируются скалярными произведениями векторов, соединяющих точки, соответствующие стимулам с началом координат

(2.35)

При построении конфигурации стимулов используется аппарат линейной или нелинейной оптимизации.

Известны три подхода к шкалированию: линейный, нелинейный и неметрический. Линейный подход, предложенный Торгерсоном [25], основан на ортогональном проектировании в подпространство, образованное направлениями, характеризующимися значительным разбросом точек. Такое решение дает при ортогональном проектировании.

В нелинейном случае [35] пытаются найти отображение, которое бы минимально искажало исходные различия . Вводится критерий качества отображения, называемый «стрессом» и измеряющий степень расхождения между исходными различиями и результирующими расстояниями . С помощью аппарата нелинейной оптимизации ищется конфигурация точек, которая давала бы минимальное значение «стрессу». Значения координат этих точек и являются решением задачи. В качестве «стресса» используются разные виды функционалов, в простейшем случае:

(2.36)

Нелинейный подход, как правило, приводит к пространству меньшей размерности, чем линейный. В линейном случае допускаются искажения лишь в сторону уменьшения различий. В нелинейном - возможны искажения как в ту, так и в другую сторону. Предпосылки получения отображения в пространстве невысокой размерности можно создать, если допустить возможность некоторого увеличения больших расстояний и уменьшения маленьких.

Неметрический (или монотонный) подход в своей последней модификации [36] основан на следующем соображении. Поскольку исходная матрица различий не является точной матрицей расстояний в каком-либо метрическом пространстве, то не следует стремиться аппроксимировать непосредственно эти различия. Нужно подобрать такую последовательность чисел, которая была бы монотонна с исходными различиями, но была бы более близка к точным расстояниям. Эту последовательность чисел уже можно использовать в качестве эталонной. Однако не известен способ построения такой последовательности с учетом лишь первоначальных различий. Предлагается многоэтапная процедура, использующая начальную конфигурацию точек.

На первом этапе подбирается числовая последовательность , монотонная с исходными различиями и минимально отклоняющаяся от расстояний начальной конфигурации. Затем ищется новая конфигурация, расстояния которой в наилучшей мере аппроксимируют числовую последовательность . На втором этапе опять подбирают новую последовательность и конфигурацию изменяют так, чтобы ее расстояния приближали эту последовательность, и т. д. Таким образом, в качестве критерия, измеряющего качество отображения, используется функционал вида

(2.37)

Нормирующий множитель вводится для того, чтобы на качество решения не влиял масштаб конфигурации.

Известен еще один подход к шкалированию [37], сохраняющий монотонность отображения и не опирающийся на какую-либо числовую последовательность. Он основан на минимизации критерия:

(2.38)

если

в противном случае.

Передвижение точек конфигурации направлено на усиление монотонности отображения, т.е. удовлетворению требования , если .

Нелинейный и неметрический подходы имеют преимущество перед линейным. Не ограничиваясь ортогональным проектированием, они позволяют получить хорошее отображение в пространстве меньшего числа измерений. Если размерность пространства оценена правильно, то после вращения координатные оси могут быть интерпретированы как факторы, лежащие в основе субъективных различий между стимулами. Если же размерность недооценена, то решение допускает интерпретацию только в терминах кластеров.

Нелинейные и неметрические методы опираются, как правило, на дистанционную модель: различия между стимулами приближаются расстояниями между соответствующими им точками. Для поиска решения они используют градиентные процедуры минимизации функционала. В большинстве случаев расстояния между точками вычисляются по евклидовой метрике, которая не чувствительна к вращению осей и переносу начала координат. Качество решения не зависит от направления системы координат, по этой причине формально полученные оси не могут нести смысловую нагрузку -- для содержательной интерпретации они должны быть ориентированы соответствующим образом.

В основу линейного метода Торгерсона [25] положена центрированная векторная модель: близости между стимулами должны быть аппроксимированы скалярными произведениями векторов, соединяющих точки-стимулы с центром тяжести структуры. Решение ищется путем факторизации матрицы исходных близостей (или связей); вычисляются ее собственные значения и собственные векторы. Такая процедура обусловливает жесткую ориентацию осей: первая ось характеризуется максимальным разбросом точек вдоль нее, вторая - ортогональна первой и определяется следующим по величине разбросом, третья - ортогональна плоскости первых двух и т. д.

В тех практических ситуациях, когда существует фактор, по которому стимулы различаются больше, чем по всем остальным, первая ось будет соответствовать этому фактору. В таком случае формально полученные оси будут иметь смысловое содержание. Если же с точки зрения вклада в различия между стимулами все факторы или несколько из них равноценны, то для интерпретируемости осей необходимо произвести их поворот.

2.3.3 Корреляционный анализ

При изучении корреляций стараются установить, существует ли какая-то связь между двумя показателями в одной выборке, либо между двумя различными выборками, и если эта связь существует, то сопровождается ли увеличение одного показателя возрастанием (положительная корреляция) или уменьшением (отрицательная корреляция) другого. Иными словами, корреляционный анализ помогает установить, можно ли предсказывать возможные значения одного показателя, зная величину другого.

С этой целью можно использовать два разных способа: параметрический метод расчета коэффициента Браве-Пирсона (), и вычисление коэффициента корреляции рангов Спирмена () [40], который применяется к порядковым данным, т.е. является непараметрическим.

Коэффициент корреляции -- это величина, которая может варьировать в пределах от +1 до -1. В случае полной положительной корреляции этот коэффициент равен плюс 1, а при полной отрицательной -- минус 1.

На графике (рисунок 2.2) тому соответствует прямая линия, проходящая через точки пересечения значений каждой пары данных.

(а) (б)

Рисунок 2.2. Полная положительная корреляция () (а) и полная отрицательная корреляция () (б)

В случае же если эти точки не выстраиваются по прямой линии, а образуют «облако», коэффициент корреляции по абсолютной величине становится меньше единицы и по мере округления этого облака приближается к нулю (рисунок 2.3)

(а) (б) (в)

Рисунок 2.3. (а), (б), (в)

В случае если коэффициент корреляции равен 0, обе переменные полностью независимы друг от друга.

Обычно корреляция считается сильной, если ее коэффициент выше 0,60; если же он превышает 0,90, то корреляция считается очень сильной. Однако для того, чтобы можно было делать выводы о связях между переменными, большое значение имеет объем выборки: чем выборка больше, тем достовернее величина полученного коэффициента корреляции.

Существуют таблицы с критическими значениями коэффициента корреляции Браве-Пирсона и Спирмена для разного числа степеней свободы (оно равно числу пар за вычетом 2, т. е. ). Лишь в том случае, если коэффициенты корреляции больше этих критических значений, они могут считаться достоверными.

Так, для того чтобы коэффициент корреляции 0,70 был достоверным, в анализ должно быть взято не меньше 8 пар данных () при вычислении и 7 пар данных () при вычислении .

Коэффициент корреляции Браве-Пирсона () - это параметрический показатель, для вычисления которого сравнивают средние и стандартные отклонения результатов двух измерений. При этом используют формулу (2.18):

(2.39)

где - сумма произведений данных из каждой пары; - число пар; - средняя для данных переменной ; - средняя для данных переменной ; - стандартное отклонение для распределения ; - стандартное отклонение для распределения .

Коэффициент корреляции рангов Спирмена () - это непараметрический показатель, с помощью которого пытаются выявить связь между рангами соответственных величин в двух рядах измерений. При вычислении коэффициента Спирмена используют порядок следования данных, а не их количественные характеристики и интервалы между классами.

При использовании коэффициента корреляции рангов Спирмена проверяют только, будет ли ранжирование данных для какой-либо выборки таким же, как и в ряду других данных для этой выборки, попарно связанных с первыми. Если коэффициент близок к +1, то это означает, что оба ряда практически совпадают, а если этот коэффициент близок к -1, можно говорить о полной обратной зависимости. Коэффициент вычисляется по формуле (2.19)

(2.40)

где - разность между рангами сопряжённых значений признаков (не зависимо от знака); - число пар.

Обычно этот непараметрический тест используется в тех случаях, когда нужно сделать какие-то выводы не столько об интервалах между данными, сколько об их рангах, а также тогда, когда кривые распределения слишком асимметричны и не позволяют использовать такие параметрические критерии, как коэффициент (в этих случаях бывает необходимо превратить количественные данные в порядковые).

2.4 Субъективные методы анализа

2.4.1 Основные подходы к записи эмоционально окрашенной речи

Существует несколько основных подходов к записи искусственной эмоциональной речи. Прежде всего, они связаны с разделением искусственной эмоциональной речи на наведённую и наигранную[41, 42].

В первом случае, используют методику Велтена [43] состоящую в том, что человек, читая предложения с определённым эмоциональным контекстом (положительные, отрицательные, нейтральные), произносит их с соответствующими эмоциями. Для этого испытуемого помещают в звукоизолированную комнату, перед ним находиться монитор, на котором через определённые интервалы времени появляются предложения, которые необходимо прочитать. Запись производиться с помощью микрофона, также, с помощью камеры, фиксируется выражения лица. Предложения содержат эмоциональный контекст, таким образом, испытуемый при прочтении предложения старается его отобразить. Данная методика является не слишком эффективной, так как необходимо также учитывать непосредственное состояние, в котором находится человек, а также его восприимчивость.

Наигранные эмоции записывают с использованием методики Станиславского. Она представляет собой научно обоснованную теорию сценического искусства, и была разработана русским режиссёром, актёром и театральным деятелем К.С. Станиславским [44]. В этой системе впервые решается проблема сознательного постижения творческого процесса создания роли, определяет пути перевоплощения актера в образ. Целью является достижение полной психологической достоверности актёрских работ. В основе лежит разделение актёрской игры на три технологии: ремесло, переживание и представление. По Станиславскому ремесло основано на пользовании готовых штампов, по которым зритель может однозначно понять, какие эмоции имеет в виду актёр. Искусство представления основано на том, что в процессе длительных репетиций актёр испытывает подлинные переживания, которые автоматически создают форму проявления этих переживаний, но на самом спектакле актёр эти чувства не испытывает, а только воспроизводит форму, готовый внешний рисунок роли. Наконец, в искусстве переживания актёр в процессе игры испытывает подлинные переживания, и это рождает жизнь образа на сцене.

2.4.2 База данных эмоциональной речи EMO-DB

Запись немецкой базы данных EMO-DB [1] проводилась с помощью методики Станиславского. При этом, учитывая, что наигранная эмоциональная речь не в полной мере является заменой естественной, были приняты во внимание следующие ограничения:

· Необходимо использовать достаточное число дикторов, для того, чтобы была возможность выбора материала из полученных данных.

· Все дикторы должны произносить одинаковые фразы.

· Записи должны быть высокого качества с минимальным фоновым шумом. Иначе спектральные измерения будут невозможны.

· Наличие инверсной фильтрации, безэховой камеры и ларингографа обязательно.

В данной базе использовались следующие эмоции: нейтральная, гнев, страх, радость, грусть.

С помощью газетной рекламы были отобраны 40 человек, которые были приглашены на предварительный отбор. Они должны были произнести по одной фразе в каждом из различных эмоциональных состояний. Руководствуясь этими записями, эксперты отобрали 10 человек (5 мужчин, 5 женщин). Все, кроме одного человека, оказались профессиональными актёрами.

Важно отметить, что все предложения, используемые в базе данных, несмотря на свою эмоциональность, не содержат эмоционального контекста. Изначально, было использовано два типа текстового материала, отвечающего всем вышеперечисленным требованиям:

1) бессмысленный текст, такой, как, например, случайные серии фигур или букв, или придуманных слов.

2) Обычные предложения, использующиеся в повседневной жизни.

Бессмысленный текст по определению эмоционально нейтрален. Однако минусом является то, что для актёров оказалось слишком сложным представить эмоциональную ситуацию, в которой можно произнести эти фразы. Поэтому воспроизведение бессмысленного текста не привело к каким-либо положительным результатам.

По сравнению с этим, предложения, использующиеся в повседневной жизни гораздо более просты в эмоциональной интерпретации. Более того, их проще запоминать. При создании базы данных приоритет отдавался естественности эмоций, именно поэтому используется материал, состоящий из обыденных фраз. 10 предложений, 5 из которых состоят из одной фразы, и 5 из двух фраз, были придуманы таким образом, чтобы было возможно произнести их с соответствующим эмоциональным подтекстом. Для базы данных были использованы следующие предложения (таблица 2.1).

Запись проводились в звукоизолированной комнате Берлинского Технического Университета, Департамент Технической Акустики, с использованием микрофона Sennheiser MKN 40 P 48 и цифрового магнитофона Тascam DA-P1. Также были записаны электро-глоттограммы с использованием ларингографа (Laryngograph Ltd.) При этом частота дискретизации составляла сначала 48 кГц, затем была понижена до 16 кГц.

Таблица 2.1. Предложения, использованные в базе данных EMO-DB

Код

Текст на немецком

Русский перевод

a01

Der Lappen liegt auf dem Eisschrank.

Скатерть лежит на холодильнике.

a02

Das will sie am Mittwoch abgeben.

Она передаст это в понедельник.

a04

Heute abend kцnnte ich es ihm sagen.

Вечером я скажу ему.

a05

Das schwarze Stьck Papier befindet sich da oben neben dem Holzstьck.

Лист металла находится там же, рядом с дровами.

a07

In sieben Stunden wird es soweit sein.

Это случиться через семь часов.

b01

Was sind denn das fьr Tьten, die da unter dem Tisch stehen?

Что насчёт сумок, стоящих под столом?

b02

Sie haben es gerade hochgetragen und jetzt gehen sie wieder runter.

Они только что занесли это наверх, и теперь опять спускаются.

b03

An den Wochenenden bin ich jetzt immer nach Hause gefahren und habe Agnes besucht.

Последнее время в выходные по дороге домой я всегда видел Агнессу.

b09

Ich will das eben wegbringen und dann mit Karl was trinken gehen.

Я только доиграю, а потом пойду выпью с Карлом.

b10

Die wird auf dem Platz sein, wo wir sie immer hinlegen.

Оно будет в том же месте, что и обычно.

Актёры стояли напротив микрофона на некотором расстоянии от него, так, чтобы им хватало пространства для необходимых телодвижений, движения ограничивались только длиной кабеля ларингографа, и необходимостью говорит в направлении микрофона на расстоянии около 30 см.

Во время записи рядом с актёром присутствовали три фонетиста, два из которых давали необходимые инструкции, и один следил за оборудованием. Каждая из сессий длилась около двух часов. Текст, при необходимости, подсказывался актёру, для того, что бы избежать интонаций, связанных с прямым чтением. Перед записью им предлагалось сначала прослушать характеристику предстоящего эмоционального состояния (например, радость от выигрыша большого количества денег в лотерее, или печаль от утраты близкого друга или родственника), и затем давалось некоторое время для перевоплощения. Актёров просили вспомнить какое либо состояние из прошлого, в котором они испытывали подобные чувства.

Процесс произнесения фразы по времени был не ограничен. Для некоторых из комбинаций были записаны несколько вариантов. Актёры были предупреждены о том, что необходимо избегать прямого крика (например, при интерпретации гнева) и шёпота. Это необходимо для того, чтобы полученные данные были достаточного для анализа качества. Также было уделено внимание тому факту, что произношение должно быть повседневным.

При записи возникли некоторые проблемы: во-первых, расстояние между источником звука и микрофоном не остаётся постоянным, а изменяется в зависимости от движений диктора, таким образом, анализ энергии сигнала может быть не надёжным. Во-вторых, нужно было регулировать уровень записи в соответствие с громкостью речи.

2.4.3 Перцептивный тест и методика его проведения

Просодическое, невербальное выражение эмоций часто определяется как неконвенциональное и сходное у представителей разных культур [45, 46]. Была предпринята попытка выявить возможности испытуемых (носителей русского языка) определять эмоции в голосовом сообщении при прослушивании аудиозаписей с эмоциональной немецкой речью (гнев, радость, страх, грусть, нейтральное состояние). Цель эксперимента - определить личностные особенности испытуемых, такие как: самочувствие, активность, настроение, особенности параметров эмоционального интеллекта (эмоциональной осведомленности, эмпатии, умения распознавать эмоции других людей, самомотивации, управления своими эмоциями), макиавеллизм личности и акцентирование на тех из них, которые способствуют и помогают при распознавании эмоций по голосу.

В качестве испытуемых были выбраны 20 человек, с неполным высшим образованием, средний возраст которых составил 21.5 лет. Методику проведения эксперимента можно разбить на три этапа.

На первом этапе участники эксперимента приглашаются в аудиторию, где им предлагают ответить на вопросы психологических тестов для определения личностных особенностей. После этого, экспериментатор объясняет испытуемым инструкцию к предстоящему эксперименту и раздает необходимые бланки. Далее начинается сам эксперимент.

В течение второго этапа участники прослушивают аудиозаписи на немецком языке. Эмоционально окрашенные предложения следуют одно за другим, в произвольном порядке, а испытуемые делают пометки в бланке после каждого прослушанного предложения, пытаясь определить эмоции в речи актеров.

На третьем этапе производиться подсчёт полученных результатов. По результатам перцептивного теста составляется матрица распознавания эмоций, являющаяся исходным материалом для метода многомерного шкалирования.

2.5 Классификация на основе нейронных сетей

2.5.1 Основные сведения о нейронных сетях

Искусственная нейронная сеть - это математическая модель, а также устройства параллельных вычислений, представляющие собой систему соединённых и взаимодействующих между собой простых процессоров (искусственных нейронов) [47]. В последние несколько лет наблюдается взрыв интереса к нейронным сетям, которые успешно применяются в самых различных областях - бизнесе, медицине, технике, геологии, физике. Нейронные сети вошли в практику везде, где нужно решать задачи прогнозирования, классификации или управления.

Биологические нейронные сети

Нейронные сети возникли из исследований в области искусственного интеллекта, а именно, из попыток воспроизвести способность биологических нервных систем обучаться и исправлять ошибки, моделируя низкоуровневую структуру мозга. Основной областью исследований по искусственному интеллекту в 60-е - 80-е годы были экспертные системы. Такие системы основывались на высокоуровневом моделировании процесса мышления (в частности, на представлении, что процесс нашего мышления построен на манипуляциях с символами). Скоро стало ясно, что подобные системы, хотя и могут принести пользу в некоторых областях, не ухватывают некоторые ключевые аспекты человеческого интеллекта. Согласно одной из точек зрения, причина этого состоит в том, что они не в состоянии воспроизвести структуру мозга. Чтобы создать искусственный интеллект, необходимо построить систему с похожей архитектурой.

Мозг состоит из очень большого числа (около 10 000 000 000) нейронов, соединенных многочисленными связями (в среднем несколько тысяч связей на один нейрон, однако это число может сильно колебаться). Взаимодействующие между собой посредством передачи нервных импульсов нейроны образуют биологические нейронные сети (БНС). Нейроны - это специальные клетки, способные распространять электрохимические сигналы. Нейрон имеет разветвленную структуру ввода информации (дендриты), ядро и разветвляющийся выход (аксон). Аксоны клетки соединяются с дендритами других клеток с помощью синапсов. При активации нейрон посылает электрохимический сигнал по своему аксону. Через синапсы этот сигнал достигает других нейронов, которые могут в свою очередь активироваться. Нейрон активируется тогда, когда суммарный уровень сигналов, пришедших в его ядро из дендритов, превысит определенный уровень (порог активации).

Таким образом, будучи построен из очень большого числа совсем простых элементов (каждый из которых берет взвешенную сумму входных сигналов и в случае, если суммарный вход превышает определенный уровень, передает дальше двоичный сигнал), мозг способен решать чрезвычайно сложные задачи. Отметим важнейшие свойства БНС.

1. Обработка информации в БНС осуществляется в параллельном режиме. Каждый нейрон формирует свой выход только на основе своих входов и собственного внутреннего состояния под воздействием общих механизмов регуляции нервной системы.

2. БНС обладают способностью к комплексной обработке информации. К этой группе свойств относятся ассоциативность (сеть может восстанавливать полный образ по его части), способность к классификации, обобщению, абстрагированию и множество других.

3. Функционирование БНС отличается высокой степенью самоорганизации. В процессе работы они самостоятельно, под воздействием внешней среды, обучаются решению разнообразных задач. Не существует, насколько известно, никаких принципиальных ограничений на сложность задач, решаемых БНС. Нервная система сама формирует алгоритмы своей деятельности, уточняя и усложняя их в течение жизни.

4. БНС являются аналоговыми системами. Информация поступает в сеть по большому количеству каналов и кодируется по пространственному принципу: вид информации определяется номером нервного волокна, по которому она передается. Амплитуда входного воздействия кодируется плотностью нервных импульсов, передаваемых по волокну.

5. БНС обладают чрезвычайно высокой надежностью: выход из строя даже 10% нейронов в нервной системе не прерывает ее работы. В последовательных ЭВМ, основанных на принципах фон Неймана, сбой одной ячейки памяти или одного узла в аппаратуре приводит к выходу системы из строя.

Искусственные нейронные сети

Искусственная нейронная сеть представляет собой структуру нейронов, соединенных между собой. Сеть характеризуется внутренними свойствами образующих ее нейронов, индивидуальной топологией (архитектурой), а также правилами обучения (тренировки).

Обобщенная модель отдельного нейрона представлена на рисунке 2.4. Нейрон выполняет функцию адаптивного сумматора с регулируемыми уровнями входных сигналов, который осуществляет дополнительную линейную или нелинейную обработку вычисленной суммы с целью получения результата.

Рисунок 2.4. Обобщённая модель нейрона

Входная функция нейрона расположенного в слое, реализует операцию суммирования взвешенных выходов нейронов, расположенных в предыдущем, слое:

(2.41)

Здесь -- число нейронов в предыдущем слое; символы использованы с целью установления различия между нейронами, принадлежащими разным слоям сети. Значение в (2.41) определяет величину внешнего смещения, подаваемого на нейрон , что соответствует включению в модель нейрона дополнительной синаптической связи с фиксированным значением сигнала .

Результат суммирования служит аргументом функции активации. Значение функции активации соответствует отклику нейрона на произвольную комбинацию входных воздействий. Иными словами, посредством активации нейрона осуществляется трансформация множества входных воздействий в выходной сигнал с желаемыми характеристиками. Вместе с правилами корректировки весовых коэффициентов на входе нейрона (правилами обучения), отличительной особенностью многих нейронных структур является выбор функции активации.

2.5.2 Однонаправленные нейронно-сетевые архитектуры

Искусственная нейронная сеть представляет собой структуру нейронов, соединенных между собой. Сеть характеризуется внутренними свойствами образующих ее нейронов, индивидуальной топологией (архитектурой), а также правилами обучения (тренировки).

Однослойные искусственные нейронные сети

Хотя один нейрон и способен выполнять простейшие процедуры распознавания, но для серьезных нейронных вычислений необходимо соединять нейроны в сети. Простейшая сеть состоит из группы нейронов, образующих слой (рисунок 2.5). Отметим, что вершины-круги слева служат лишь для распределения входных сигналов. Они не выполняют каких-либо вычислений и, поэтому, не будут считаться слоем. Для большей наглядности обозначим их кругами, чтобы отличать их от вычисляющих нейронов, обозначенных квадратами. Каждый элемент из множества входов отдельным весом соединен с каждым искусственным нейроном. А каждый нейрон выдает взвешенную сумму входов в сеть. Могут существовать также соединения между выходами и входами элементов в слое.

Удобно считать веса элементами матрицы . Матрица имеет строк и столбцов, где - число входов, а - число нейронов. Например, - это вес, связывающий третий вход со вторым нейроном. Таким образом, вычисление выходного вектора , компонентами которого являются выходы OUT нейронов, сводится к матричному умножению, где и- векторы-строки

Рисунок 2.5 Однослойная нейронная сеть

Многослойные искусственные нейронные сети

Более крупные и сложные нейронные сети обладают, как правило, и большими вычислительными возможностями. Хотя созданы сети всех конфигураций, какие только можно себе представить, послойная организация нейронов копирует слоистые структуры определенных отделов мозга. Оказалось, что такие многослойные сети обладают большими возможностями, чем однослойные. Многослойные сети могут строиться из каскадов слоев. Выход одного слоя является входом для последующего слоя.

Подобная сеть показана на рисунке 2.6. Многослойные сети не могут привести к увеличению вычислительной мощности по сравнению с однослойной сетью, если активационная функция между слоями линейна. Вычисление выхода слоя заключается в умножении входного вектора на первую весовую матрицу с последующим умножением (если отсутствует нелинейная активационная функция) результирующего вектора на вторую весовую матрицу

(2.42)

Так как умножение матриц ассоциативно, то

(2.43)

Рисунок 2.6 Многослойная нейронная сеть

Из выражения (2.43) видно, что двухслойная линейная сеть эквивалентна одному слою с весовой матрицей, равной произведению двух весовых матриц. Следовательно, любая многослойная линейная сеть может быть заменена эквивалентной однослойной сетью. Однако однослойные сети весьма ограниченны по своим вычислительным возможностям. Таким образом, для расширения возможностей сетей по сравнению с однослойной сетью необходима нелинейная активационная функция.

У сетей, рассмотренных до сих пор, не было обратных связей, т.е. соединений, идущих от выходов некоторого слоя к входам этого же слоя или предшествующих слоев. Этот специальный класс сетей, называемых сетями без обратных связей или сетями прямого распространения, представляет большой интерес и широко используется. Сети более общего вида, имеющие соединения от выходов к входам, называются сетями с обратными связями. У сетей без обратных связей нет памяти, их выход полностью определяется текущими входами и значениями весов. В некоторых конфигурациях сетей с обратными связями предыдущие значения выходов возвращаются на входы; выход, следовательно, определяется как текущим входом, так и предыдущими выходами. Поэтому сети с обратными связями могут обладать свойствами, сходными с кратковременной человеческой памятью, где сетевые выходы тоже частично зависят от предыдущих входов.

Архитектура перцептрона проектируется исходя из содержания задачи, размерности вектора данных, количества параметров, характеризующих процесс или закономерность, а также требуемой точности идентификации. Размерность вектора данных определяется, в свою очередь, частотой дискретизации входного сигнала, если регистрируются временные последовательности, либо количеством измерительных датчиков.

Внутренняя структура перцептрона (число слоев, количество нейронов в слое, выбор функции активации) является, в большинстве случаев, результатом многократного экспериментирования с сетью, при котором анализируется поведение сети в процессе обучения, скорость процесса обучения, точность обработки данных, не использованных в процессе обучения и т.д. Обстоятельной теории, которая бы позволила оптимизировать этот процесс, пока что не существует.

Сложность сети должна соответствовать размерности обучающего набора, т. е., добавление нового внутреннего слоя в архитектуру нейронной сети с целью достижения более точной аппроксимации, должно сопровождаться увеличением числа обучающих пар. Если обучающий набор останется прежним, в то время как сеть стала более сложной, способность сети к обобщению будет снижаться. И наоборот. Выбор слишком простой для предложенного набора данных структуры сети может сопровождаться утратой ее способности определять основные параметры отображения.

Традиционно нейронные сети используются для задач классификации. В этом случае выходные сигналы преднамеренно представляются в бинарной форме, а целью процедуры является определение принадлежности выходного вектора (образца) некоторому заранее известному множеству. Бинарный характер выходных сигналов реализуется в архитектуре нейронной сети в форме пороговой функции активации выходных нейронов, а именно

(2.44)

Очевидно, что функция (2.44) не является удовлетворительной в реконструктивных приложениях, поскольку каждая из компонент выходного вектора является в большинстве случаев непрерывной функцией. Представление непрерывного выходного сигнала эффективно реализуется в нейронной сети с помощью так называемой «сигмоидной» (sigmoid) функции активации

(2.45)

Вид функции (2.45) представлен на рисунке 2.7. Форма сигмоидной функции позволяет рассматривать нейрон как адаптивный усилитель суммарного сигнала, поступающего на его входы. Слабый сигнал при этом усиливается, а сигнал высокого уровня не снижает чувствительности нейрона. Кроме того, функция (2.45) является непрерывно дифференцируемой, а ее первая производная является простой функцией выхода:

(2.46)

Рисунок 2.7 Сигмоидная функция активации и ее производная

Это обстоятельство оказывается чрезвычайно важным как для реализации алгоритма обратного распространения, так и для эффективной нейронно-сетевой обработки сложных отображений, нелинейных процессов и задач реконструкции.

2.5.3 Обучение нейронных сетей

Под процессом обучения понимается алгоритмическая корректировка весовых коэффициентов синаптических связей каждого участвующего в процессе обучения нейрона, направленная на достижение минимальной ошибки в определении параметров выходного вектора для каждого из входных «образцов».

На этапе обучения на вход сети последовательно подаются входные сигналы из заранее подготовленного для тренировки сети набора. Каждому из входных сигналов (данным) соответствуют заранее известные параметры выходного вектора, определение которых для произвольного набора данных, в том числе не использованных в процессе обучения, является целью задачи. Такими параметрами могут быть, например, логические утверждения принадлежности входного вектора тому или иному классу решений или его соответствия одному из тестовых образов, коэффициенты разложения входной функции относительно некоторого базиса и т. д.

В каждом такте обучения перцептрон оперирует одновременно с одной из пap векторов из входного и соответствующего ему выходного пространств, составляющих множество элементов обучения размерности . После предъявления на вход перцептрона (нейронной сети) всех имеющихся в распоряжении элементов (эпоха обучения), оценивается значение суммарной выходной среднеквадратичной ошибки

(2.47)

перцептрона с матрицей весовых коэффициентов соответствующей -ой обучающей эпохе. В формуле (2.47) вектор соответствует «истинному» вектору из обучающего набора, а вектор представляет собой результат нейронно-сетевой обработки входного сигнала в д -ой эпохе.

Алгоритм обратного распространения

Рассмотрим наиболее распространенный алгоритм обучения нейронных сетей с прямой связью - алгоритм обратного распространения ошибки. Этот алгоритм был заново открыт и популяризирован в 1986 г. Румельхартом и МакКлеландом [47, 48]. Суть алгоритма состоит в минимизации суммарной квадратичной ошибки

(2.48)

Основная идея обратного распространения заключается в том, чтобы вычислять чувствительность ошибки сети к изменениям весов. Для этого нужно вычислить частные производные от ошибки по весам. Пусть обучающее множество состоит из P образцов, и входы k-го образца обозначены через . Вычисление частных производных осуществляется по правилу цепи: вес входа i-го нейрона, идущего от j-го нейрона, пересчитывается по формуле

(2.49)

где - длина шага в направлении, обратном к градиенту.

Если рассмотреть отдельно k-й образец, то соответствующее изменение весов равно

(2.50)

Множитель вычисляется через аналогичные множители из последующего слоя, и ошибка, таким образом, передается в обратном направлении.

Для выходных элементов мы получаем

(2.51)

Для скрытых элементов множитель определяется так

(2.52)

С учетом того, что

и (2.53)

Получаем

(2.54)

где индекс h пробегает номера всех нейронов, на которые воздействует i-й нейрон.

Данный алгоритм используется в двух вариантах. В стохастическом варианте веса пересчитываются каждый раз после просчета очередного образца, а в «эпохальном», или off-line варианте, веса меняются после просчета всего обучающего множества.

Переобучение и обобщение

Одна из наиболее серьезных трудностей алгоритма обратного распространения заключается в том, что таким образом мы минимизируем не ту ошибку, которую на самом деле нужно минимизировать, -- ошибку, которую можно ожидать от сети, когда ей будут подаваться совершенно новые наблюдения [49]. Иначе говоря, мы хотели бы, чтобы нейронная сеть обладала способностью обобщать результат на новые наблюдения. В действительности, сеть обучается минимизировать ошибку на обучающем множестве, и в отсутствие идеального и бесконечно большого обучающего множества это совсем не то же самое, что минимизировать "настоящую" ошибку на поверхности ошибок в заранее неизвестной модели явления.

Сильнее всего это различие проявляется в проблеме переобучения, или слишком близкой подгонки. Сети с большим числом весов моделируют более сложные функции и, следовательно, склонны к переобучению. Сеть же с небольшим числом весов может оказаться недостаточно гибкой для того, чтобы смоделировать имеющуюся зависимость. Почти всегда более сложная сеть дает меньшую ошибку, но это может свидетельствовать не о хорошем качестве модели, а о переобучении. Выход состоит в том, чтобы использовать механизм контрольной кросс-проверки. Резервируется часть обучающих наблюдений, использующаяся для независимого контроля результата.

В самом начале работы ошибка сети на обучающем и контрольном множестве будет одинаковой (если они существенно отличаются, то, вероятно, разбиение всех наблюдений на два множества было неоднородно). По мере того как сеть обучается, ошибка обучения, естественно, убывает, и, пока обучение уменьшает действительную функцию ошибок, ошибка на контрольном множестве также будет убывать. Если же контрольная ошибка перестала убывать или даже стала расти, значит, сеть начала слишком близко аппроксимировать данные и обучение следует остановить. Это явление чересчур точной аппроксимации в процессе обучения и называется переобучением. Если такое случилось, то обычно советуют уменьшить число скрытых элементов и/или слоев, ибо сеть является слишком мощной для данной задачи. Если же сеть, наоборот, была взята недостаточно богатой для того, чтобы моделировать имеющуюся зависимость, то переобучения, скорее всего, не произойдет и обе ошибки - обучения и проверки - не достигнут достаточного уровня малости.

При практической работе с нейронными сетями, как правило, приходится экспериментировать с большим числом различных сетей, порой обучая каждую из них несколько раз (чтобы не быть введенным в заблуждение локальными минимумами) и сравнивая полученные результаты. Главным показателем качества результата является здесь контрольная ошибка. Необходимость многократных экспериментов ведет к тому, что контрольное множество начинает играть ключевую роль в выборе модели, то есть становится частью процесса обучения. Тем самым ослабляется его роль как независимого критерия качества модели -- при большом числе экспериментов есть риск выбрать "удачную" сеть, дающую хороший результат на контрольном множестве. Для того чтобы придать окончательной модели должную надежность, часто (по крайней мере, когда объем обучающих данных это позволяет) поступают так: резервируют еще одно, тестовое множество наблюдений. Итоговая модель тестируется на данных из этого множества, чтобы убедиться, что результаты, достигнутые на обучающем и контрольном множествах, реальны, а не являются артефактами процесса обучения. Разумеется, для того чтобы соответствовать своей роли, тестовое множество должно быть использовано только один раз: если его использовать повторно для корректировки процесса обучения, то оно фактически превратится в контрольное множество.

2.5.4 Реализация многослойного перцептрона в MatLab

Когда сеть имеет несколько слоев, то каждый слой имеет свою матрицу весов W, вектор смещения b и вектор выхода а.

Чтобы различать весовые матрицы, векторы выхода и т. д. для каждого из этих слоев, вводится номер слоя как верхний индекс для представляющей интерес переменной (рисунок 2.8).

эмоция речевой сигнал идентификация

Рисунок 2.8 Многослойная сеть

Сеть, показанная выше, имеет R входов, нейронов в первом слое, нейронов во втором слое и т. д. На смещения для каждого нейрона подан постоянный входной сигнал 1. Выходы каждого промежуточного слоя служат входами для следующего слоя. Таким образом, слой 2 может быть рассмотрен как один слой сети с входами, нейронами и x матрицей весов .

Работа сети состоит в вычислении выходов сети на основе известных входов с целью формирования желаемого отображения вход/выход. Конкретная задача определяет число входов и число выходов сети. Кроме числа нейронов в выходном слое сети, для проектировщика важно число нейронов в каждом слое. Большее количество нейронов в скрытых слоях обеспечивает более мощную сеть. Если должно быть реализовано линейное отображение, то следует использовать нейроны с линейными функциями активации. При этом надо помнить, что линейные нейронные сети не могут формировать нелинейные отображения. Использование нелинейных функций активации позволяет настроить нейронную сеть на реализацию нелинейных связей между входом и выходом.

Обучение многослойного перцептрона

Комбинация линейной функции нескольких переменных и скалярной сигмовидной функции приводит к характерному профилю "сигмовидного склона" [49], который выдает элемент первого промежуточного слоя. На рисунке 2.9 (a) соответствующая поверхность изображена в виде функции двух входных переменных. Элемент с большим числом входов выдает многомерный аналог такой поверхности. При изменении весов и порогов меняется и поверхность отклика; может меняться как ориентация всей поверхности, так и крутизна склона -- большим значениям весов соответствует более крутой склон. Так, например, если увеличить все веса в два раза, то ориентация не изменится, а наклон будет более крутым. В многослойной сети подобные функции отклика комбинируются друг с другом с помощью последовательного взятия их линейных комбинаций и применения нелинейных функций активации. На рисунке 2.9 (б) изображена типичная поверхность отклика для сети с одним промежуточным слоем, состоящим из двух элементов, и одним выходным элементом, для классической задачи "исключающего или". Две разных сигмоидных поверхности объединены в одну поверхность, имеющую форму буквы "U".

Перед началом обучения сети весам и порогам случайным образом присваиваются небольшие по величине начальные значения. Тем самым, отклики отдельных элементов сети имеют малый наклон и ориентированы хаотично -- фактически они не связаны друг с другом. По мере того, как происходит обучение, поверхности отклика элементов сети вращаются и сдвигаются в нужное положение, а значения весов увеличиваются, поскольку они должны моделировать отдельные участки целевой поверхности отклика.


Подобные документы

  • Детерминанты эмоциональной напряженности. Подходы к исследованию проблемы проявления в речи состояния эмоциональной напряженности. Практические рекомендации органам по работе с личным составом по учету негативных эмоциональных состояний военнослужащих.

    дипломная работа [4,1 M], добавлен 13.06.2012

  • Психические состояния, отражающие в форме переживания позитивное или негативное отношение человека к окружающему миру. Первичные и вторичные эмоции. Расстройства в эмоциональной сфере, патологические состояния. Исследование эмоций в норме и патологии.

    презентация [239,6 K], добавлен 06.04.2014

  • Теоретические основы изучения эмоциональной сферы личности младшего школьника, значение эмоций и их роль в жизнедеятельности человека. Эмпирическое исследование тревожности как негативного эмоционального состояния, интерпретация результатов исследования.

    дипломная работа [2,5 M], добавлен 16.06.2011

  • Понятие человеческих эмоций и изучение их функций. Особенности эмоциональной сферы личности в подростковом возрасте. Характеристика тревожности и проведение эмпирического исследования эмоциональной сферы подростков. Значение эмоций в жизни ребенка.

    контрольная работа [38,5 K], добавлен 01.06.2014

  • Клинико-психологическая характеристика тревожно-депрессивного синдрома. Разработка программы групповой коррекционной работы с использованием музыкальных средств и оценка динамики психоэмоционального состояния лиц с тревожно-депрессивным синдромом.

    дипломная работа [553,7 K], добавлен 08.11.2012

  • Стенические и астенические эмоции как фактор эмоционального и психологического состояния. Влияние эмоций на интеллект и волю, взрывчатые аффективные реакции. Иерархия эмоций по эмоциональной устойчивости и аффектные патологии. Дистимия и гипотимия.

    контрольная работа [20,5 K], добавлен 18.01.2010

  • Общая характеристика эмоциональной сферы человека. Определение эмоционального состояния. Основные виды эмоций, их роль в развитии человека. Характеристика факторов, вызывающих эмоции. Положительное и отрицательное влияние эмоций и чувств на человека.

    контрольная работа [61,6 K], добавлен 26.10.2014

  • Характеристика эмоциональной сферы человека: определение эмоционального состояния. Виды чувственной среды и состояние личности при переживании эмоций. Положительное и отрицательное влияние переживаний и исследование уровня эмоциональности сотрудников.

    реферат [58,9 K], добавлен 28.10.2010

  • Психоэмоциональные особенности детей с церебральным параличом. Классификация форм ДЦП. Средства физического воспитания для коррекции психоэмоционального состояния у детей с церебральным параличом: подвижные игры, пальчиковая гимнастика, массаж.

    дипломная работа [3,6 M], добавлен 30.09.2012

  • Эмоциональные состояния человека. Социальные нормы поведения. Эмоции и развитие личности. Теории, функции, классификация и виды эмоций. Ситуативная и личностная тревожность человека. Опросник Спилбергера и исследование тревожности по методике Ханина.

    курсовая работа [77,7 K], добавлен 24.06.2009

Работы в архивах красиво оформлены согласно требованиям ВУЗов и содержат рисунки, диаграммы, формулы и т.д.
PPT, PPTX и PDF-файлы представлены только в архивах.
Рекомендуем скачать работу.