Исследование зависимости речевых параметров от психоэмоционального состояния человека

Теории возникновения эмоций. Алгоритмы расчёта основных характеристик речевого сигнала. Методы исследования эмоциональной речи. Cегментация рынка программы автоматической идентификации психоэмоционального состояния. База данных эмоциональной речи EMO-DB.

Рубрика Психология
Вид дипломная работа
Язык русский
Дата добавления 20.12.2012
Размер файла 2,0 M

Отправить свою хорошую работу в базу знаний просто. Используйте форму, расположенную ниже

Студенты, аспиранты, молодые ученые, использующие базу знаний в своей учебе и работе, будут вам очень благодарны.

Размещено на http://www.allbest.ru/

Реферат

«Исследование зависимости речевых параметров от психоэмоционального состояния человека»

В рамках оптимизации интерфейса человек-машина стоит задача обеспечения коммуникации между ЭВМ и человеком посредством голосовых команд. В разработке этого интерфейса важно учитывать не только лингвистическую информацию, но и эмоциональную составляющую речи, так существенная доля прагматически важной информации в речевой коммуникации передается невербально. Поэтому исследования в этой области направлены как на синтез искусственной эмоциональной речи, так и на определение психоэмоционального состояния человека. Методы исследования эмоциональной речи можно разделить на субъективные (тесты по идентификации эмоций) и объективные (расчёт и анализ статистических характеристик). Существующие объективные системы различаются количеством распознаваемых эмоций, типами используемых баз данных, акустическими параметрами речевого сигнала, а также алгоритмами классификаторов. Однако проблема автоматического распознавания эмоционального состояния говорящего по голосу на данный момент не является решенной.

Целью данного исследования является определение наиболее эффективного набора речевых характеристик, выявление зависимости между основными параметрами и психоэмоциональным состоянием человека, а также выбор оптимальных параметров классификации.

Анализ эмоционального состояния говорящего может быть основан на двух составляющих звуковой речи: вербальной (лингвистической) и невербальной (паралингвистической). Так как лингвистическая компонента является достаточно сложной для автоматического анализа, чаще всего исследуется зависимость паралингвистической составляющей от изменения психоэмоционального состояния. Паралингвистические параметры легко рассчитываются и могут быть подвергнуты статистическому анализу, что позволяет получить количественные оценки состояний. К наиболее исследуемым паралингвистическим параметрам относят: частоту основного тона, интенсивность, нелинейные характеристики на основе оператора ТЕО.

В рамках исследования в качестве изначального набора были выбраны следующие характеристики: джиттер, шиммер, максимальное изменение частоты основного тона внутри и между сегментами, стандартное отклонение частоты основного тона внутри и между сегментами, среднее, стандартное отклонение, минимальное, максимальное значение ТЕО в критических полосах 51 Гц, 150 Гц, 250 Гц, 350 Гц, среднее, стандартное отклонение, минимальное и максимальное значение энергии сигнала.

Исследования проводились на базе данных EMO-DB [1] немецкой эмоциональной речи, содержащей 187 записей 5 дикторов (мужчин). Использование объективных (однофакторный дисперсионный анализ, многомерное шкалирование, непараметрические корреляции) и субъективных (перцептивный тест) методов анализа, их сравнение, а также эксперименты с нейросетевым классификатором позволили выявить наиболее оптимальный набор параметров классификации, а также эффективный набор речевых характеристик, на основании которых можно судить об изменеии психоэмоционального состояния человека.

Глава 1. Исследование эмоциональной речи

Речь - основная форма общения между людьми посредством языковых конструкций, создаваемых на основе определённых правил. Среди функциональных характеристик речи можно выделить следующие:

1) Семантическую, которая обуславливает возможность её использования для общения посредством обозначения своих мыслей;

2) Коммуникативную, как средство общения и передачи информации;

3) Эмоциональную.

Помимо лингвистического содержания, важную роль в передаче информации играют эмоции. Эмоциональная функция речи принадлежит к генетически первичным её функциям. При этом эмоциональная окраска речевого сигнала выражается как в изменениях уровня лексико-грамматических параметров, так и в изменении акустико-фонетических параметров.

Изучение эмоциональной речи является крайне интересной, но сложной темой. К первым исследованиям в данной области можно отнести труды Фейрбенкса в конце 1930х годов [2]. С тех пор было проведено достаточно много экспериментов, но, тем не менее, полученные знания не полностью отражают суть явления. Основной сложностью является отсутствие однозначного подхода к исследованию эмоциональной речи. Более того, само понятие «эмоция» до конца не определено. Существует довольно большое множество теорий, каждая из которых отражает лишь отдельные аспекты, в зависимости от того, каким подходом руководствуются исследователи. Тот факт, что эмоции являются смесью биологических и когнитивных процессов, т.е. автоматических и осознанно контролируемых факторов, усложняет однозначное определение данного понятия. Выражения лица, интонации и другие показатели, характеризующие эмоциональность, могут использоваться как для коммуникации, так и для выражения эмоций, делая, таким образом, интерпретацию контекстно - зависимой.

1.1 Понятие «эмоция»

Понятие «эмоция» используется в литературе в нескольких различных смыслах. В своей статье Кови и Корнелиус [3] приводят следующие, наиболее часто используемые термины.

Прежде всего, это термин «чистая эмоция» («fullblown emotion»). Он используется в тех случаях, когда эмоциональное состояние чётко выражено. Это одна из наиболее изученных форм эмоций, прежде всего потому, что она легко идентифицируется. В тех случаях, когда эмоция рассматривается в этом качестве, обычно формирует критерий «полноты». В зависимости от степени «полноты» эмоция соответствует или не соответствует данной категории. Критерий «полноты» эмоционального состояния зависит от выбранной теории.

Термин «эмоциональный тон ощущений» («underlying emotion») характеризует эмоциональную окраску, свойственную большинству психологических состояний. В качестве примера, приведённого Кови и Корнелиусом, рассматривается дружелюбность, которая, не являясь в полном смысле эмоцией, тем не менее, подразумевает под собой некоторую позитивную эмоциональную окраску. Эта форма эмоции наиболее сложна для изучения. Многие исследователи склонны рассматривать этот тип эмоций как относящийся непосредственно к передаче информации.

Разница между этими двумя эмоциональными категориями существенна, однако существует множество промежуточных эмоциональных состояний, которые слишком сильно выражены, для того, что бы считаться эмоциональной окраской, но и в тоже время недостаточны, для того, что бы их можно было отнести к первой категории. Термин, предложенный Кови и Корнелиусом, характеризует их как «настроение» («emotional states»).

Наконец, термин «чувства» («emotion-related states») характеризует состояния, которые не являются эмоциями, но имеют с ними некоторые общие аспекты, например состояния возбуждённости, взволнованности, и т.д.

1.2 Базовые эмоции

Для описания эмоций, соответствующих некоторым фундаментальным физиологическим и психологическим процессам, в психологии существует термин базовые эмоции [4]. Существуют различные определения базовых эмоций, предложенных Плутчиком [5], Экманом [6], Изардом [7] и др., но их объединяет стремление к выделению небольшого количества эмоций. Математической аналогией является понятие базиса векторного пространства.

Число базовых эмоций обычно не велико (в ранних исследованиях меньше 10, в современных - от 10 до 20). В соответствии с теорией Изарда, например, существует 10 базовых эмоций: радость, интерес, удивление, печаль, гнев, отвращение, презрение, страх, стыд, вина. В качестве основных критериев базовых эмоций приводятся следующие:

1). Базовая эмоция проявляет себя при помощи выразительной и специфической конфигурации мышечных движений лица (мимики);

2). Базовая эмоция влечет за собой отчетливое и специфическое переживание, которое осознается человеком;

3). Базовые эмоции возникли в результате эволюционно-биологических процессов;

4). Базовая эмоция оказывает организующее и мотивирующее влияние на человека, служит его адаптации.

Исследования в области эмоциональной речи строятся различным образом, в зависимости от того, какие из базовых эмоций принимают за основные.

Кови и Корнелиус в своей статье структурировали различные исследования в этой области, систематизировав основные эмоции в таблицу (таблица 1.1).

1.3 Теории возникновения эмоций

1.3.1 Теория Дарвина

В 1872г. Ч. Дарвин опубликовал книгу "Выражение эмоций у человека и животных", которая явилась поворотным пунктом в понимании связи биологических и психологических явлений, в частности, организма и эмоций. В ней было доказано, что эволюционный принцип применим не только к биологическому, но и психолого-поведенческому развитию живого, что между поведением животного и человека непроходимой пропасти не существует. Эти наблюдения легли в основу теории эмоций, которая получила название эволюционной. Эмоции согласно этой теории появились в процессе эволюции живых существ как жизненно важные приспособительные механизмы, способствующие адаптации организма к условиям и ситуациям его жизни. Телесные изменения, сопровождающие различные эмоциональные состояния, по Дарвину, есть не что иное, как рудименты реальных приспособительных реакций организма. И действительно, общность эмоциональных выражений человека и высших животных, стоящих наиболее близко к человеку, настолько очевидна, что не поддается никакому оспариванию.

Таблица 1.1. Базовые эмоции

Бенс и Шерер (1996)

Лазарус (1999)

Экман (1999)

Кови и др. (2003)

ярость

гнев

гнев

гнев

раздражение

-----

-----

-----

страх, ужас

испуг

страх

боязнь

печаль, уныние

печаль

печаль

грусть

отчаяние, горе

-----

-----

-----

беспокойство

беспокойство

беспокойство

волнение

радость

радость

чувственность

радость

-----

-----

удовольствие

-----

восторг

-----

-----

-----

-----

-----

забавность

забавность

-----

-----

удовлетворенность

радость

-----

-----

-----

заинтересованность

-----

-----

возбуждение

возбуждение

скука

-----

скука

скука

безразличие

-----

-----

-----

-----

-----

-----

расслабленность

отвращение

отвращение

отвращение

-----

презрение

-----

презрение

-----

-----

гордость

гордость

-----

Представление о базовых эмоциях - небольшом числе эмоций, сформировавшихся в процессе эволюции - является частью дарвинистской теории. Важное открытие эволюционной теории, общность эмоций, продемонстрировал в 1993 Экман [6]. Он доказал, что по крайней мере 6 эмоций (радость, печаль, гнев, страх, удивление, отвращение) выражаются на лице схожим образом в различных культурах. Но, несмотря на общее выражение эмоций, существуют специфичные правила поведения в той или иной ситуации. Правила поведения определяют кто, когда, и какие эмоции должен проявлять.

1.3.2 Теория Джеймса-Ланге

Теория эмоций Джеймса-Ланге [8] была выдвинута независимо друг от друга американским философом и психологом Джеймсом и датским медиком Ланге в 80-90х годах прошлого столетия. Согласно этой теории, возникновение эмоций обусловлено вызываемыми внешними воздействиями изменениями, как в произвольной двигательной сфере, так и в сфере непроизвольных актов сердечной, сосудистой, секреторной деятельности. Совокупность ощущений, связанных с этими изменениями, и есть эмоциональное переживание. Если Джеймс связывал эмоции с широким кругом периферических изменений, то Ланге - только с сосудистодвигательной системой. Таким образом, периферические органические изменения, которые обычно рассматривались как следствие эмоций, объявлялись их причиной. Теория эмоций Джеймса-Ланге представляла собой попытку превратить эмоции в объект, доступный естественному изучению. Однако, связав эмоции исключительно с телесными изменениями, она перевела их в разряд явлений, не имеющих отношения к потребностям и мотивам, лишала эмоции их адаптивного смысла, регулирующей функции. Проблема произвольной регуляции эмоций трактовалась при этом упрощенно, считалось, что нежелательные эмоции, например, гнев, можно подавить, если намеренно совершать действия, характерные для положительных эмоций. Основные возражения против данной теории эмоций, выдвигаемые в психологии, относятся к механистическому пониманию эмоций как совокупности ощущений, вызываемых периферическими изменениями, и к объяснению природы высших чувств.

1.3.3 Когнитивная теория

Согласно когнитивной теории положительное эмоциональное переживание возникает у человека тогда, когда его ожидания подтверждаются, а когнитивные представления воплощаются в жизнь, т.е. когда реальные результаты деятельности соответствуют намеченным, согласуются с ними, или, находятся в консонансе. Отрицательные эмоции возникают и усиливаются в тех случаях, когда между ожидаемыми и действительными результатами деятельности имеется расхождение, несоответствие или диссонанс. Субъективно состояние когнитивного диссонанса обычно переживается человеком как дискомфорт, и он стремится как можно скорее от него избавиться. Выход из состояния когнитивного диссонанса может быть двояким: или изменить когнитивные ожидания и планы таким образом, чтобы они соответствовали реально полученному результату, или попытаться получить новый результат, который бы согласовывался с прежними ожиданиями.

В современной психологии теория когнитивного диссонанса нередко используется для того, чтобы объяснить поступки человека, его действия в различных социальных ситуациях. Эмоции же рассматриваются в качестве основного мотива соответствующих действий и поступков. Лежащим в их основе когнитивным факторам придается в детерминации поведения человека гораздо большая роль, чем органическим изменениям. Доминирующая когнитивистская ориентация современных психологических исследований привела к тому, что в качестве эмоциогенных факторов стали рассматривать также и сознательные оценки, которые человек дает ситуации. Полагают, что такие оценки непосредственно влияют на характер эмоционального переживания.

1.3.4 Социально конструктивистская теория

Самая молодая из теорий разработана Корнелиусом и Аверилом [3]. В ней, эмоции рассматриваются как социальные паттерны, которые человек усваивает в процессе обучения и культурного развития. Они выполняют социальную цель, регулируя различными путями отношения между индивидами. Не только выражение эмоций, но и сами по себе эмоции включают в себя субъективный опыт на основе культурного развития. Главное отличие от теории Дарвина состоит в правилах воспроизведения, которые составляют так называемые социальные фильтры для выражения биологически заложенных эмоций. Данная теория учитывает влияние существующих биологических фундаментов эмоций, однако, их важность рассматривается как вторичный компонент социально образующих механизмов. Эмоции рассматриваются как элементы культуры, вместе с этим они имеют не только культурные, но и биологические и, что важнее всего, социально - структурные основания. Так как людьми движут конкретные эмоциональные переживания, эмоции необходимо рассматривать в контексте конкретных социальных взаимоотношений.

1.4 Характеристики речи

Идентификация параметров, характеризующих психоэмоциональное состояние, является комплексной задачей. Невербальное выражение эмоционального состояния берёт своё начало в примитивной аналоговой сигнальной системе, речь же является добавлением к этой системе в процессе эволюционного развития. Многие акустические характеристики содержат в себе информацию соответствующую как вербальным, так и невербальным аспектам. При исследовании этих характеристик необходимо иметь в виду их двойственную природу. Следует заметить, что некоторые параметры, имеющие огромное значение для идентификации, до сих пор не изучены. Это связано, прежде всего, с технической доступностью, нежели с вопросами теоретической мотивации.

1.4.1 Паралингвистические характеристики

К наиболее исследуемым паралингвистическим аспектам можно отнести линейные характеристики (значение и диапазон основного тона, темп речи и значение интенсивности), и нелинейные характеристики на основе оператора ТЕО. В этом случае взаимосвязь эмоционального состояния и акустических характеристик можно исследовать с помощью ковариационной модели.

Бенс и Шерер, например, в 1996 [9] произвели измерения акустических характеристик для 14 психоэмоциональных состояний. При этом они использовали только наиболее распознаваемые из этих состояний. Акустические характеристики включали в себя: значение основного тона, среднеквадратичное отклонение, значение энергии, была измерена длительность гласных и согласных, а также спектральные характеристики. После расчёта корреляции акустических характеристик с независимыми переменными (пол, тип фраз, эмоции и т.д.), был сделан вывод о том, что эмоции имеют значительное влияние на изменение этих речевых параметров.

Линейные характеристики. Частота основного тона

Формирование гласных и носовых согласных звуков речи в голосовом аппарате человека определяется частотой колебания голосовых связок, задающих основной тон (ОТ) речи. Для каждого человека существует характерное только для него распределение основного тона по частоте. Другой характеристикой ОТ является его мелодика, представляющая собой усредненные за некоторый интервал значения частоты основного тона.

Статистические измерения частоты ОТ можно производить по осциллограммам речевого сигнала на выходе высококачественного микрофона и по рентгенограммам колебаний голосовых связок, полученным при произнесении диктором отдельных звукосочетаний и фраз. С вероятностью 0,95 основной тон мужских голосов расположен, в интервале от 97 до 195 Гц. Для женских голосов этот интервал составляет 195-320 Гц.

Для получения распределения относительной длительности вокализованных и невокализованных сигналов были проведены статистические измерения по осциллограммам речевого сигнала для мужских и женских голосов. В результате проведенных исследований выяснилось, что средняя длительность невокализованных участков (шумового сигнала) составляет 65 мс при максимальной длительности 160 мс. Средняя длительность гласных составляет 180 мс, согласных -- 95 мс, слога дикторской речи -- 260 мс.

Линейные характеристики. Громкость речи

Громкость -- восприятие разности в физической силе произносимых звуков, определяемой как субъективно, так и инструментально. За нормальную громкость приняты показатели 50-80 дБ (при постоянном фоновом шуме до 10 дБ). Также различают: умеренное повышение (80-90 дБ), значительное повышение (90-110 дБ), крик (выше 110 дБ), умеренное понижение (40-50 дБ), значительное снижение (20-40 дБ) и шёпот (менее 20 дБ).

Громкость напрямую влияет на способность восприятия звуков и их различия. Эта способность и является главным объектом исследований. В частности, большое внимание уделяется исследованию интенсивности сигнала, с помощью которой могут быть измерены различные характеристики, такие как амплитуда, среднеквадратичное отклонение и т.д. Наибольшее распространение получил метод оценки «абсолютной громкости», предложенный Звикером в 1999 [10].

Линейные характеристики. Паузация

Паузы - наличие перерывов в ходе сообщения (как синтаксически обоснованных, так и без семантической наполненности). Оценивается продолжительность пауз: короткие - до 3 с, средние - 3-7 с, длинные - более 7 с. Важен учет семантики участка высказывания, в котором выявлена пауза, так как последняя может подчеркивать субъективную значимость переживаний, их эмоциональную насыщенность. Наличие пауз может служить косвенным указателем на депрессию, диссимуляцию переживаний и т.д. Необходимо по контексту высказывания выявить семантику пауз, так как иногда молчание красноречиво и емко передает те или иные аспекты переживаний.

В своей работе Розенфельд [11] использовал длительность пауз для разделения трёх состояний: нормального, депрессивного и маниакального. Было предложено использовать десять переменных: итоговое время разговора (мс), итоговое время пауз (мс), общее время фрагмента речи (мс), скорость речи (фонем/с), скорость артикуляции (фонем/с), задержка сигнала (мс), средняя длина паузы (мс), возможная длина сегмента, возможная длина паузы и максимальная амплитуда речи. В результате измерения этих характеристик три состояния удалось достоверно различать друг от друга.

Нелинейные характеристики. Оператор ТЕО

Традиционная линейная звуковая теория считает, что поток воздуха из голосовых связок распространяется через голосовой тракт как плоская волна, где пульсирующий поток - это рассмотренный источник речеобразования. В соответствии с работой Теагера [12] это предположение может не выполняться, так как поток фактически расщепляется, образуя сопутствующие вихри, распределенные в голосовом тракте. Теагер предположил, что реальный источник речеобразования - это нелинейные взаимодействия вихревого потока. Основываясь на теории простой колебательной системы “струна - груз”, Теагер предложил использовать энергетический оператор для измерения энергии речи, которая производится нелинейным процессом. Этот оператор получил название TEO.

В своей работе Зоу [13] используются различные параметры, рассчитанные на основе нелинейного оператора TEO. На рисунке ниже (рисунок 1.1) сравниваются результаты парной классификации эмоциональных состояний: нейтрального, раздраженного, кричащего, а также этих же состояний в присутствии шума.

Рисунок 1.1 Результаты парной классификации эмоциональных состояний

В первом столбце показаны результаты для автокорреляционной функции TEO оператора, во втором - классификация с помощью линейного анализа основного тона, в третьем - классификация по автокорреляционной функции для TEO, предварительно отфильтрованного в нескольких частотных полосах, соответствующих полосам пропускания слуховой системы человека. Как показывает сравнение результатов, последний метод на 5% улучшает уровень классификации, обеспечиваемый линейным методом анализа основного тона, и достигает 93% правильной классификации.

1.4.2 Лингвистические характеристики

Как и паралингвистические аспекты, вербальные составляющие играют немаловажную роль в определении психоэмоционального состояния. В этом случае взаимосвязь эмоционального состояния и лингвистических характеристик можно исследовать с помощью конфигурационной модели.

Одно из первых исследований, изучивших вклад лингвистических характеристик в эмоциональную компоненту речи выполнено Шерером, Ладдом и Силверманом в 1984 [2]. В тестах на восприятие, использующих произвольный материл, предоставленный социальным агентством, они нашли доказательство влияния каждой из моделей. Доказательство состояло во взаимосвязи типа фразы (wh-вопрос и да/нет вопрос) и формы контура основного тона в конце фразы. Только в случае да/нет вопроса, форма контура основного тона в конце фразы была убывающей, что воспринималось как укоризненность и даже агрессивность.

При изучении лингвистической функции интонации, эмоциональное её значение было обнаружено как побочное явление. Андреева и Берри [14] исследовали влияние интонации на различие между фразами. В числе прочих вещей, было замечено, что интонация вопросов, представленных в форме, требующей ответа, воспринималась как утверждение, причём с негативной эмоциональной окраской (злость, недовольство).

Стиббард (2001) [15], анализируя спонтанную эмоциональную речь, сделал вывод о том, что низкий тон акцента возникает гораздо чаще в речи с эмоциональным состоянием, соответствующим грусти. Таким образом, не смотря на существования очевидной зависимости между лингвистическими параметрами и психоэмоциональным состоянием, ограниченное число баз данных, а также отсутствие возможности статистической оценки этих параметров, затрудняет исследование в этой области.

1.5 Методы исследования эмоциональной речи

1.5.1 Субъективные методы

Эмоциональные категории

Идея того, что эмоции могут быть систематизированы в соответствии с несколькими базовыми категориями, принадлежит Вундту (1896) [16]. Вундт предложил использовать три категории для оценки эмоций в виде независимых шкал. Это такие категории как: приятность - неприятность, активность - пассивность, напряжённость - расслабленность. Однако его предположение не было подкреплено экспериментальными данными. Первые же исследования в этой области принадлежат Шлосбергу (1941) [17]. Его эксперимент заключался в оценке выражения лица по шкале, состоящей из 6 эмоциональных категорий. Результаты исследования подтвердили принятую систематизацию, большинство из ответов чётко соответствовали одной из категорий. Также было установлено, что шкала должна представлять собой окружность. Двухмерная структура, такая как круг, требует двух категорий для определения составляющих её элементов. В отсутствие второй категории круг превратился бы в прямую линию. Пытаясь определить название категорий, Шлосберг пришёл к выводу, что наиболее важной является категория приятность - неприятность.

Другой подход в определении категорий оценки эмоций был использован Осгудом в 1957 [18]. Категории эмоциональности, присущие объектам речи, оценивались с помощью шкалы парных прилагательных. С использованием пятидесяти прилагательных, (таких, как тяжёлый - лёгкий, сладкий - солёный, яркий - тёмный), было произведено описание двадцати объектов (девушка, камень, озеро и т.д.). Факторный анализ ответов показал, что три категории являются фундаментальными для характеризации объекта. Осгуд назвал эти категории: эволюционной, потенциальной и активной.

Основываясь на большом количестве произведённых ранее исследований, Уотсон и Теллеген [19] в 1985 предложили вариант двух мерной структуры. Двум главным измерениям соответствовали позитивные и негативные эмоции. Шкалы позитивных и негативных эмоций в предложенном ими пространстве были повернуты на 45 градусов по сравнению со шкалами активности и оценки. Этот вариант продемонстрировал неопределённость интерпретации структуры измерения данных, так как на самом деле довольно сложно определить, какой из вариантов структур является наиболее точным. В зависимости от типов исследований обе интерпретации могут оказаться действенными.

Довольно интересное описание двух категорий было сделано Кови и др. в 2001 [3]. Они представили эмоциональное пространство в виде двухмерного круга, оси которого были названы «оценка» (от отрицательного до положительного) и «активность» (от пассивного до активного). Здесь была использована категория «оценка» в качестве основополагающего термина когнитивной теории. Категория «активность» также является одним из фундаментальных аспектов эмоций.

Исходя из вышесказанного, можно сделать вывод, что два или три измерения эмоциональности присутствует практически во всех экспериментах. Интересно заметить, что результатом большинства исследований являются одни и те же эмоциональные категории. Наиболее важный вопрос состоит в том, отражают ли данные категории все свойства эмоций, или же упрощают и ограничивают их описание. Безусловно, описание эмоций с помощью измерений или категорий упрощают оценку эмоциональности, при этом игнорируя многие важные её аспекты. С другой стороны, категории рассматриваются как мощное средство представления, охватывающее наиболее важные из факторов, и обеспечивающие сравнение эмоциональных состояний. В частности, измерения особенно необходимы для некоторого рода исследований, например для статистического анализа эмоциональной речи.

Тесты на идентификацию эмоций

Тесты на восприятие являются наиболее распространённым типом исследования речи и эмоций. Некоторое число стимулов представляется слушателю в свободном порядке, каждый из стимулов соответствует одной (и только одной) категории эмоций. Основной особенностью тестов является произвольность интерпретации полученной информации испытуемым, в то время как сама информация является априорным материалом. Такая система тестов получила название произвольно - принудительной.

Этот метод нашёл применение во множестве исследований, в частности в оценке искусственной эмоциональной речи. Главной предпосылкой использования этого метода является контроль за эмоциональной информацией. Существенным условием правильного выполнения теста является то, что сам по себе вербальный контекст не должен быть носителем эмоционального состояния. Обычно для этого используются эмоционально нейтральные предложения.

Обычно число проведённых измерений отражается на результате. Для определения процента вероятности корректных ответов, уровень распознавания, т.е. процент «правильных» ответов в данной категории, сравнивается с уровнем случайных ответов.

Также составляет интерес неправильные ответы (сомнение). Сомнение свидетельствует о схожести в восприятии двух эмоциональных состояний. Метод, исследующий схожесть восприятия, использует матрицу подобий. Она наглядно демонстрирует, какие из категорий наиболее привлекательнее других.

Использование в качестве двух мерной модели круга было предложено Шлосбергом в 1941 [17] на базе матрицы подобий. Он заметил, что при упорядочивании эмоциональных категорий определённым образом, верхняя и нижняя побочная диагональ содержит большинство «неправильных» ответов, это свидетельствует о сходстве в восприятии соседних категорий.

Также следует упомянуть о некоторых недостатках метода. Бенс и Шерер заметили, что если предложено небольшое число категорий, участники склонны выбирать между предложенными категориями, вместо того что бы идентифицировать эмоции. Вторая, может быть самая серьёзная проблема, заключается в невозможности фиксации категорий восприятия, не представленных в ответе. Частичным решением проблемы являются тесты, в которых испытуемым предлагается дать произвольный ответ, т.е. предложить свою эмоциональную категорию. Затем производиться анализ этих ответов с целью выделения определённого количества категорий для будущих вариантов ответа.

Одним из распространённых тестов на восприятие является тест Плутчика [5]. При этом в двух координатной системе изображается круг, где по горизонтальной оси располагается оценка (от положительных до отрицательных эмоций), а по вертикальной оси - активность (от пассивных до активных эмоций). Нейтральное состояние соответствует центру координат. По мере удаления от центра эмоциональное состояние становиться наиболее ярко выраженным. Исследования, выполненные с помощью этого теста, были проведены Джовичичем и др. в 2003 [20]. Испытуемым предлагалось прослушать фрагмент эмоциональной речи (соответствующий одной из выбранных базовых эмоций: гнев, радость, страх, печаль, нейтральное состояние) и расположить в соответствии с их личностной оценкой на круге Плутчика с помощью курсора мышки. На основе этого теста были получены следующие данные. Было выявлено, что нейтральные эмоции располагаются не в центре, а вблизи центра координат с небольшим отклонением. Эмоции страха оказались наиболее рассосредоточены по окружности, это связано с наличием множества градаций данной эмоциональной категории. Поля, соответствующие эмоциям страха и нейтрального состояния, взаимопересекаются, что свидетельствует о сходном восприятии этих эмоциональных состояний.

На рисунке 1.2а показаны результаты теста. Эллипсами обозначены поля, с наибольшей концентрацией, соответствующие каждой из эмоций. На рисунке 1.2б обозначены центры каждого из полей и среднеквадратичное значение отклонений.

а) б)

Рисунок 1.2. Круг Плутчика (а) и статистическое распределение для эмоций (б)

1.5.2 Объективные методы

Метод многомерного шкалирования

Многомерное шкалирование получило свое интенсивное развитие в 60-х годах в работах американских ученых Торгерсона, Шепарда, Краскэла [21, 25]. Задача многомерного шкалирования в самом общем виде состоит в том, чтобы выявить структуру исследуемого множества стимулов. Под выявлением структуры понимается выделение набора основных факторов, по которым различаются стимулы, и описание каждого из стимулов в терминах этих факторов.

Процедура построения структуры опирается на анализ объективной или субъективной информации о близости между стимулами либо информации о предпочтениях на множестве стимулов. В случае анализа субъективных данных решаются одновременно две задачи. С одной стороны, выявляется объективная структура субъективных данных, с другой -- определяются факторы, влияющие на процесс принятия решения.

Предположим, что существует координатное пространство, каждая ось которого соответствует одному из искомых факторов. Каждый стимул представляется точкой в этом пространстве, величины проекций этих точек на оси соответствуют значениям или степеням факторов, характеризующих данный стимул. Чем больше величина проекций, тем большим значением фактора обладает стимул. Мера сходства между двумя стимулами обратно пропорциональна расстоянию между соответствующими им точками. Чем ближе стимулы друг к другу, тем выше мера сходства между ними (и ниже мера различия), далеким точкам соответствует низкая мера сходства. Чтобы точным образом измерить близости, необходимо ввести метрику в искомом координатном пространстве; выбор этой метрики оказывает большое влияние на результат решения.

Схема многомерного шкалирования включает ряд последовательных этапов. На первом этапе необходимо получить экспериментальным способом субъективные оценки различий. На втором этапе решается задача построения координатного пространства и размещения в нем точек-стимулов таким образом, чтобы расстояния между ними, определяемые по введенной метрике, наилучшим образом соответствовали исходным различиям между стимулами. Вводится критерий качества отображения, называемый «стрессом» и измеряющий степень расхождения между исходными различиями и результирующими расстояниями. Ищется такая конфигурация точек, которая давала бы минимальное значение этому «стрессу».

Значения координат этих точек и являются решением задачи. Используя эти координаты, строится геометрическое представление стимулов в пространстве невысокого числа измерений. Оно должно быть в достаточной степени адекватно исходным данным.

Эксперимент, проведенный Джовичичем и др. (2003) [20] позволил наглядно интерпретировать с помощью многомерного шкалирования полученный ими результат теста на идентификацию. В качестве исходных данных использовалась матрица неточностей (таблица 1.2), где N - нейтральная речь, A - гнев, H - радость, F - страх, S - печаль. Результат представляет собой пространственное распределение 4 эмоций и нейтральной речи в трёхмерном пространстве (рисунок 1.3).

Таблица 1.2. Матрица неточностей

Эмоции

Ответы

N

A

H

F

S

N

94.67

1.795

0.273

0.4224

2.708

A

0.65

96.06

2.358

0.567

0.197

H

0.89

2.302

94.73

1.606.

0.312

F

1.211

2.646

1.023

93.33

1.545

S

2.537

0.282

0.179

0.829

96.04

Рисунок 1.3. Распределение эмоций и нейтральной речи в 3х мерном пространстве

Однофакторный дисперсионный анализ ANOVA

Дисперсионный анализ (от латинского Dispersio - рассеивание), статистический метод, позволяющий анализировать влияние различных факторов на исследуемую переменную. Метод был разработан биологом Фишером в 1925 году и применялся первоначально для оценки экспериментов в растениеводстве. В дальнейшем выяснилась общенаучная значимость дисперсионного анализа для экспериментов в психологии, педагогике, медицине и др.

Целью дисперсионного анализа является проверка значимости различия между средними с помощью сравнения дисперсий. Дисперсию измеряемого признака разлагают на независимые слагаемые, каждое из которых характеризует влияние того или иного фактора или их взаимодействия. Последующее сравнение таких слагаемых позволяет оценить значимость каждого изучаемого фактора, а также их комбинации. При истинности нулевой гипотезы (о равенстве средних в нескольких группах наблюдений, выбранных из генеральной совокупности), оценка дисперсии, связанной с внутригрупповой изменчивостью, должна быть близкой к оценке межгрупповой дисперсии.

Для оценки важности каждого из речевых параметров в распознавании эмоциональных фрагментов используется однофакторный дисперсионный анализ. Дисперсионный анализ был выполнен Джовичичем и др. [20] для паралингвистических и лингвистических акустических характеристик. В результате анализа были сделаны выводы о том, что фактором, оказывающий наибольшее влияние на эмоциональное состояние является величина основного тона. Также было установлено, что эмоции гнев и радость могут быть различимы между собой только на основании параметра производной от основного тона.

Корреляция эмоциональных категорий

Первый эксперимент, исследовавший зависимость между эмоциями путём корреляции эмоциональных категорий и различных характеристик речевого сигнала был выполнен Ульдаллом в 1960 [22].

В 1993 Тишером был опубликован литературный обзор по данной теме, в котором были сделаны несколько базовых выводов о связях эмоциональных категорий и речевых параметров. По мнению Тишера категория активность отражает высокий темп разговора, высокую интенсивность и уровень основного тона, широкий диапазон основного тона и высокую энергию в высокочастотном спектре. Категория оценки, была классифицирована как неокончательная, и требующая дальнейшего изучения.

Он отметил важность интенсивности для таких эмоций, как отчаяние, гнев, панический страх, восторг. Для них характерны наиболее большое значение основного тона и значения энергии.

По результатам всех исследований он сделал однозначный вывод о связи между категорией активности и большинством речевых параметров: Активность взаимозависит от значения основного тона, интенсивности и темпа речи. Дополнительные параметры, коррелирующие с категорией активности, это диапазон основного тона, «ревущий» тембр, высокочастотная энергия. О высокой активности также свидетельствуют короткие паузы.

Ограниченные данные о взаимосвязи категории мощности и речевых характеристик свидетельствуют о том, что категория мощности распознаётся с помощью тех же параметров, что и категория активности (высокий темп, высокое значение основного тона, более высокочастотная энергия, короткие и/или редкие паузы, широкий диапазон интенсивности). За исключением того, что иногда высокая мощность коррелирует с низким уровнем основного тона, и продолжительностью гласных.

Классификация эмоций с помощью нейронных сетей

Одна из успешных попыток автоматического распознавания психоэмоционального состояния приведена в статье Янга и др.[24]. В качестве входных параметров классификатора на нейронных сетях были использованы следующие характеристики: основной тон, форманты, темп, длительность, джиттер, шиммер, МFСС коэффициенты, LPC коэффициенты, и энергия Теагера. Был выбран следующий набор базовых эмоций: гнев, скука, счастье, печаль, удивление и нейтральное состояние. В качестве материала использовалась корейская речевая база данных, содержащая, в общей сложности, около 9060 фраз. В результате, процент правильного распознавания психоэмоциональных состояний составил 58.6% для классификатора и 60.4% в случае перцептивного теста. Матрица неточностей для классификатора и человека приведена ниже (таблица 1.3, 1.4).

Таблица 1.3.

Матрица неточностей для автоматического распознавания (в %).

Гнев

Скука

Счастье

Нейтральное состояние

Грусть

Удивление

Гнев

58.6

0.3

9.0

12.2

1.1

18.8

Скука

0.1

64.1

2.4

5.5

27.9

0.1

Счастье

11.8

2.2

54.0

16.7

5.5

9.7

Нейтральное состояние

8.5

3.1

13.4

64.0

8.6

23.8

грусть

0.3

35.6

5.8

12.5

45.2

0.7

Удивление

19.5

0.0

11.5

2.6

0.5

66.0

Таблица 1.4 Матрица неточностей для перцептивного теста (в %)

Гнев

Скука

Счастье

Нейтральное состояние

Грусть

Удивление

Гнев

68.7

1,9

4,1

15,6

0,7

20,2

Скука

1,2

56,9

1,9

5,3

42,2

0,4

Счастье

4,5

2,8

62,7

4,5

2,6

9,9

Нейтральное состояние

18,4

6,2

26,4

70,9

11,0

7,9

грусть

0,4

32,0

2,0

3,0

42,4

0,4

Удивление

6,8

0,2

2,9

0,8

0,1

61,2

Модель распознавания эмоций человеком

Анализ паралингвистических и лингвистических характеристик, их сравнение с результатами многомерного шкалирования, выполненный Джовичичем др.[20], показал наличие иерархии в процессах восприятия и распознавания эмоций. Была сформулирована модель распознавания, состоящая их трёх уровней. Первый (базовый) уровень основан на наблюдении за паралингвистическими (статическими) речевыми параметрами. Это, главным образом, характеристик трёх основных измерений: время, интенсивность и спектр.

В случае, когда эмоция не может быть выявлена на первом уровне, необходим второй уровень распознавания, в котором анализируются лингвистические (макро просодические) параметры. Человеческий механизм восприятия затрачивает значительные усилия для определения динамических характеристик. Факторы, полученные в ходе дисперсионного анализа, показывают, что на это требуется в 10 раз больше времени, по сравнению со статическими.

Предполагается, что существует третичный уровень распознавания, для которого важное значение имеют микро просодические характеристики. Предварительные исследования некоторых эмоций, относящихся к этому уровню, таких, как смущение, неопределённость и др. показали ключевую роль данных параметров для их распознавания. В качестве иллюстрации была приведена иерархическая модель распознавания эмоций (рисунок 1.4).

Экспериментальные результаты, основанные на дисперсионном анализе и методе многомерного шкалирования, позволяют сделать вывод об иерархичности процесса распознавания эмоций человеком. На первом этапе, восприятие базируется на статических характеристиках, результатом анализа которых является общее впечатление об эмоции. Если возникает путаница в эмоциях, механизм восприятия сосредотачивает внимание на макро просодических характеристиках, которые помогают с высокой точностью разделить эмоции, относящиеся к одной группе. В качестве третьего уровня распознавания была предложена модель, основанная на микро просодических характеристиках, в которой и формируется окончательное восприятие.

Рисунок 1.4. Модель распознавания эмоций

Выводы

1. Психоэмоциональное состояние в наибольшей степени оказывает влияние на изменение паралингвистических параметров;

2. Наиболее чётко это изменение прослеживается для основного тона и дисперсии основного тона речевого сигнала, а также для оператора ТЕО;

3. Зависимость лингвистических характеристик от психоэмоционального состояния трудно подается изучению в связи со сложностями в их измерении;

4. Проблема нахождения наиболее эффективного набора паралингвистических характеристик для определения психоэмоционального состояния остаётся не решённой.

Глава 2. Алгоритмы расчёта основных характеристик и методы

В главе рассматриваются основные алгоритмы расчёта паралингвистических характеристик, таких как основной тон, джиттер, шиммер и нелинейных характеристик на основе оператора ТЕО, приводится обзор методов объективного анализа характеристик речевого сигнала: однофакторного дисперсионного анализа ANOVA, метода многомерного шкалирования, корреляционного анализа, а также методики проведения перцептивного теста. Также содержатся основные сведения о нейронных сетях, их видах, и алгоритме обучения. Данные алгоритмы и методы были использованы для получения количественной оценки параметров речевого сигнала и классификации.

2.1 Алгоритмы расчёта основных характеристик речевого сигнала

2.1.1 Расчёт фундаментальной частоты

Этот алгоритм основан на работе Боэрсма в 1993 [26], и является основным инструментом исследователей для определения частоты основного тона. Определение основного тона выполняется с помощью автокорреляционного анализа коротких сегментов речи. Усовершенствование этого алгоритма состоит в нормализации автокорреляционной функции сегментов речи окном автокорреляции.

Известно, что выбор оптимальной оценки основного тона, такой, как оценки расположения глобального максимума автокорреляционной функции, приводит к ошибкам в контуре основного тона (например, частая смена звонких и глухих сегментов, удвоение октав и т.д.). Для компенсации этих эффектов применяется пост обработка, например, медианная фильтрация. Данный подход [27], использует метод, основанный на определении серии кандидатов, соответствующих каждому участку анализа, выбор кандидата откладывается до тех пор, пока все участки не обработаны. Оптимальная же последовательность, затем, определяется с учётом того, что бы потери в контуре были минимальны.

Для каждого участка m, вычисляются с помощью локального максимума нормализированной автокорреляционной функции в диапазоне (f0min, f0max) не более Nmax кандидатов (для исключения периодичности, лежащей за пределами диапазона изменения основного тона). Каждому кандидату соответствует своя локальная «сила»

(2.1)

где нормализированная функция автокорреляции сегмента, - величина k-ой задержки, в которой достигает максимума. Значение является свободным параметром алгоритма, функция которого заключается в выборе высоких или низких фундаментальных частот для моделирования соотношений между воспринимаемым основным тоном и акустической голосовой периодичностью (фундаментальная частота). Параметр также помогает уменьшить число локальных, направленных вниз переходов, вызванных наличием шума в сигнале.

Помимо голосовых, на каждом участке также рассматриваются и «глухие» кандидаты. Их локальная сила рассчитывается как

. (2.2)

Значения и обозначают пороговые значения звука и тишины, и также являются свободными параметрами алгоритма: участок классифицируется как глухой, если на нём не существует пиков корреляции со значением, выше , или если локальный абсолютный пик (lap) ниже, чем процент глобального абсолютного пика (gap). Величины gap и lap определяются в начале алгоритма, и затем отдельно для каждого отсчёта.

Вышеописанная последовательность действий соответствует основе алгоритма определения основного тона - определению последовательности кандидатов F0. Дальнейшее улучшение алгоритма связано с интерполяцией вокруг каждого локального максимума для наиболее точной оценки его расположения (так как автокорреляционная функция вычисляется по оцифрованной дискретной речи, и является дискретной версией непрерывной корреляционной функции, то её максимумы могут не соответствовать точкам сигнала). Это достигается с помощью кубической сплайн интерполяции. Функция окна, задействованная в анализе, может иметь форму распределения Гаусса. Довольно хорошие результаты с использованием этого окна были получены Боэрсмом [26] при выделении основного тона зашумлённого сигнала.

(2.3)

Результатом действия алгоритма является последовательность M наборов пар интенсивности и частоты , соответствующие каждому кратковременному отсчёту анализа. Эта последовательность определяет сетку, которая суммирует все возможные пути, соответствующие каждому возможному парному переходу между кандидатами F0 в соседних отсчётах. Это представление позволяет нам связать следующие веса для каждого пути, - номер между 1 и максимальным числом кандидатов , найденных для m-ого отсчёта:

(2.4)

2.1.2 Алгоритм расчёта F0

Путь это речевой сигнал с частотой отсчётов Fs. Пусть f0min и f0max соответствуют минимальному и максимальному значению контура F0. Предварительная обработка:

1. Филтьруем исходный сигнал с помощью низкочастотного фильтра Баттерворда 10-го порядка с частотой среза 4 кГц. Пусть - отфильтрованный сигнал.

2. Находим глобальный абсолютный пик

. (2.5)

3. Выбираем окно длиной L, для того, чтобы обеспечить три угловых периода

(2.6)

4. Используя выражение (2.3), вычисляем функцию окна, добавляя половину длины окна от 0 до , и, дополняя результирующий сигнал нулями до его длины, составляющей целые числа степени двойки. Пусть- окончательная длина сигнала, дополненного нулями.

5. Вычисляем нормализированную функцию автокорреляции

. (2.7)

Анализ коротких участков: для каждого сегмента участка длиной , разбитого на частей:

1. Вычитаем из значения каждого сегмента среднее арифметическое для всех сегментов

. (2.8)

2. Находим локальный абсолютный пик

. (2.9)

3. Дополняем последовательность нулями до длины .

4. Умножаем последовательность на окно

(2.10)

5. Вычисляем, нормализированную функцию корреляции для сегмента:

(2.11)

6. Разделим функцию корреляции для сегмента на окно автокорреляции:

. (2.12)

Пусть и из уравнения (2.2) - значение силы «глухих» кандидатов для анализируемого участка .

7. Выбирем не более локальных максимумов в в диапазоне задержек, определяемом интервалом .

8. Используя кубические сплайны, интерполируем каждый пик, а также соседние точки, для определения точного нахождения каждого экстремума. Пусть и это расположение и значение интерполированного экстремума от до .

9. - это голосовые кандидаты с силой, определяемой уравнением (2.1).

2.1.3 Джиттер и шиммер

Качественная характеристика речи может быть проанализирована с помощью джиттера и шиммера. Джиттер отражает изменения частоты основного тона, а шиммер - изменения амплитуды сигнала между двумя соседними фреймами [31]. Численно они выражаются, как

(2.13)

(2.14)

Согласно исследованиям Ji Li и др. [28] использование в качестве классификационных характеристик джиттер и шиммера способствует повышению процента правильно распознанных психоэмоциональных состояний.

Рисунок 2.1. Непостоянное (микроизменения) колебание голосовых связок характеризуется шиммером (изменения амплитуды) и джиттером (изменение частоты).

На рисунке 2.1 представлено схематичное изображение сигнала, иллюстрирующее нерегулярную амплитуду и постоянную частоту сигнала (шиммер) и постоянную амплитуду и не постоянную частоту (джиттер).


Подобные документы

  • Детерминанты эмоциональной напряженности. Подходы к исследованию проблемы проявления в речи состояния эмоциональной напряженности. Практические рекомендации органам по работе с личным составом по учету негативных эмоциональных состояний военнослужащих.

    дипломная работа [4,1 M], добавлен 13.06.2012

  • Психические состояния, отражающие в форме переживания позитивное или негативное отношение человека к окружающему миру. Первичные и вторичные эмоции. Расстройства в эмоциональной сфере, патологические состояния. Исследование эмоций в норме и патологии.

    презентация [239,6 K], добавлен 06.04.2014

  • Теоретические основы изучения эмоциональной сферы личности младшего школьника, значение эмоций и их роль в жизнедеятельности человека. Эмпирическое исследование тревожности как негативного эмоционального состояния, интерпретация результатов исследования.

    дипломная работа [2,5 M], добавлен 16.06.2011

  • Понятие человеческих эмоций и изучение их функций. Особенности эмоциональной сферы личности в подростковом возрасте. Характеристика тревожности и проведение эмпирического исследования эмоциональной сферы подростков. Значение эмоций в жизни ребенка.

    контрольная работа [38,5 K], добавлен 01.06.2014

  • Клинико-психологическая характеристика тревожно-депрессивного синдрома. Разработка программы групповой коррекционной работы с использованием музыкальных средств и оценка динамики психоэмоционального состояния лиц с тревожно-депрессивным синдромом.

    дипломная работа [553,7 K], добавлен 08.11.2012

  • Стенические и астенические эмоции как фактор эмоционального и психологического состояния. Влияние эмоций на интеллект и волю, взрывчатые аффективные реакции. Иерархия эмоций по эмоциональной устойчивости и аффектные патологии. Дистимия и гипотимия.

    контрольная работа [20,5 K], добавлен 18.01.2010

  • Общая характеристика эмоциональной сферы человека. Определение эмоционального состояния. Основные виды эмоций, их роль в развитии человека. Характеристика факторов, вызывающих эмоции. Положительное и отрицательное влияние эмоций и чувств на человека.

    контрольная работа [61,6 K], добавлен 26.10.2014

  • Характеристика эмоциональной сферы человека: определение эмоционального состояния. Виды чувственной среды и состояние личности при переживании эмоций. Положительное и отрицательное влияние переживаний и исследование уровня эмоциональности сотрудников.

    реферат [58,9 K], добавлен 28.10.2010

  • Психоэмоциональные особенности детей с церебральным параличом. Классификация форм ДЦП. Средства физического воспитания для коррекции психоэмоционального состояния у детей с церебральным параличом: подвижные игры, пальчиковая гимнастика, массаж.

    дипломная работа [3,6 M], добавлен 30.09.2012

  • Эмоциональные состояния человека. Социальные нормы поведения. Эмоции и развитие личности. Теории, функции, классификация и виды эмоций. Ситуативная и личностная тревожность человека. Опросник Спилбергера и исследование тревожности по методике Ханина.

    курсовая работа [77,7 K], добавлен 24.06.2009

Работы в архивах красиво оформлены согласно требованиям ВУЗов и содержат рисунки, диаграммы, формулы и т.д.
PPT, PPTX и PDF-файлы представлены только в архивах.
Рекомендуем скачать работу.