Исследование процессов формирования и передачи аудиоинформации с борта летательного аппарата

Средства передачи с борта и их характеристики. Методы и алгоритмы повышения разборчивости речи. Свойства речевых сигналов и слуха, влияющие на нее. Анализ акустических шумов в кабине летательного аппарата. Разработка модели формирования "очищенной" речи.

Рубрика Транспорт
Вид дипломная работа
Язык русский
Дата добавления 19.03.2015
Размер файла 4,3 M

Отправить свою хорошую работу в базу знаний просто. Используйте форму, расположенную ниже

Студенты, аспиранты, молодые ученые, использующие базу знаний в своей учебе и работе, будут вам очень благодарны.

Размещено на http://www.allbest.ru/

Тема: Исследование процессов формирования и передачи аудиоинформации с борта летательного аппарата

Студент Музыченко Роман Николаевич

Содержание

  • Список принятых сокращений
    • Введение
      • 1. Средства передачи с борта и их характеристики
      • 1.1 Радиосвязные системы
      • 2. Методы и алгоритмы повышения разборчивости речи, критерии разборчивости
      • 2.1 Определение понятия "качество передачи речи"
      • 2.2 Методы измерения разборчивости речи
      • 2.3 Свойства речевых сигналов, влияющих на разборчивость
      • 2.4 Свойства слуха, влияющие на разборчивость
      • 2.5 Разработка методики оценки разборчивости
      • 2.5.1 Организация эксперимента по оценке
      • 3. Методы распознавания речи и их связь с повышением разборчивости
      • 3.1 Технология распознавания речи
      • 3.2 Методы распознавания речи
      • 4. Классификация и анализ акустических шумов в кабине летательного аппарата, разработка контрольного генератора
      • 4.1 Формирование шумов
      • 4.2 Формирование аддитивной смеси речевого сигнала с шумом
      • 4.2.1 Белый шум
      • 4.2.2 Розовый шум
      • 4.2.3 Коричневый шум
      • 4.3 Модель оценивания разборчивости на базе измерения отношений сигнал-шум в парциальных каналах
      • 4.4 Вычисление формантной и словесной разборчивости речи
      • 5. Модель формирования очищенной речи и ее исследование
      • 5.1 Построение спектрограмм-specgram
      • 5.2 Шумоподавление на основе алгоритма спектрального вычитания
      • 5.3 Адаптивное шумоподавление на основе спектрального вычитания
      • 5.4 Адаптивное подавление акустических шумов методом наименьших квадратов
      • 5.5 Сходимость адаптивных фильтров
      • 5.6 Медианная фильтрация
      • 6. Исследование влияния канала передачи информации на конечное качество речевого сигнала
      • 7. Расчет сметы затрат на исследование процессов формирования и передачи аудиоинформации с борта летательного аппарата
      • 8. Безопасность труда при исследовании процессов формирования и передачи аудиоинформации с борта летательного аппарата
      • Заключение
      • Список использованной литературы
      • Список принятых сокращений
      • ЛА - летательный аппарат
      • СВЧ - сверхвысокие частоты
      • ВЧ - высокие частоты
      • СЧ - средние частоты
      • НЧ - низкие частоты
      • БПФ - быстрое преобразование Фурье
      • СНС - сигналы наземной станции
      • УВД - управление воздушным движением
      • ТПР - тракт передачи речи
      • МККР - Международный консультативный комитет по радиосвязи
      • ЭВМ - электронная вычислительная машина
      • МНК(LMS)- метод наименьших квадратов
      • Введение
      • Наряду с огромными успехами в развитии авиационной промышленности следует отметить и тот факт, что до сих пор еще слишком мало внимания уделяется выработке конкретных и действенных правил обеспечения безопасности движения самолетов в воздухе и на земле. Повышение безопасности полетов является жизненной необходимостью, поскольку оно служит делу укрепления доверия общественности к авиации.
      • Уровень безопасности полета определяется несколькими факторами: техническое состояние непосредственно самолета, уровень тех систем, которые находятся на борту, подготовка экипажа, и собственно организация движения, управление воздушным транспортом. Так называемый человеческий фактор является причиной 70% авиационных происшествий. Это происходит по многим факторам, в частности из-за не качественной радиопередачи. С учетом далеко идущих последствий инцидентов, связанных с актами незаконного вмешательства, и необходимости быстрого и эффективного сотрудничества со многими учреждениями с широким кругом ответственности совершенно необходимо, чтобы диспетчеры воздушного движения, несущие юридическую ответственность за подверженное такому акту воздушное пространство, узнавали обо всех аспектах ситуации как можно быстрее и вслед за этим своевременно передавали необходимую информацию старшему персоналу ОВД с целью предпринятая последними соответствующих действий. Именно это обстоятельство определило выбор темы дипломной работы, поскольку качественный эфир может позволить избежать летного происшествия.
      • Важная роль в обеспечении безопасности принадлежит системам оперативной связи БОРТ-ЗЕМЛЯ. Одна из важнейших систем безопасности это система регистрации переговоров экипажа, результаты анализа записей которой, являются одним из основных документов при расследовании летных происшествий и катастроф самолетов. Подробный анализ аудиозаписей позволяет восстановить картину происшествия, но, к сожалению, не позволяет предотвратить его. Системы аварийной и экстренной связи, предназначенные для оперативной передачи сообщений о нештатных ситуациях на борту, далеко не во всех случаях могут быть своевременно активированы и неспособны отразить предысторию развития текущей нештатной ситуации в кабине самолета. Осознание важности для безопасности полетов решения проблемы непрерывного (on-line) отображения информации (аудио и даже видео) с борта, привело к появлению ряда разработок в этом направлении. Помимо этого актуальна оперативная связь со службами управления полетами при проведении летных испытаний новой техники.
      • Данная дипломная работа направлена на исследование возможности улучшения характеристик канала связи с центром управления (диспетчером). Особенностью канала является формирование перед передачей с борта (из кабины) аудиоинформации максимальной разборчивости (определить критерий разборчивости речи через вероятность распознавания слов).
      • Использование формирователя позволяет:
      • а) максимально адекватно воспринимать диспетчером содержание переговоров в кабине;
      • б) повысить вероятность автоматического распознавания ключевых (тревожных) слов на земле;
      • в) обеспечить высокую степень сжатия передаваемого сигнала (для снижения нагрузки на канал).
      • Для решения поставленной задачи необходимо:
      • - рассмотреть имеющиеся и перспективные каналы передачи с борта;
      • - проанализировать алгоритмы и средства повышения разборчивости речи;
      • - рассмотреть методы распознавания речи и выбрать метод оценки разборчивости речи;
      • - исследовать и классифицировать виды аудио шумов в кабине, мешающих распознаванию речи;
      • - разработать модель формирования «очищенной» речи;
      • - выбор и построение канала связи;
      • - исследовать эффективность предложенного формирователя.
      • 1. Средства передачи с борта и их характеристики
      • 1.1 Радиосвязные системы
      • Радиосвязные системы предназначены для:
      • - двустороннего обмена информацией между экипажем ЛА и наземными радиостанциями;
      • - двустороннего обмена информацией между экипажем ЛА и другими ЛА;
      • - для внутренней связи между членами экипажа;
      • - для связи между экипажем и пассажирами.
      • В обязательный минимум радиосвязного оборудования пассажирских самолетов входят:
      • - радиостанция СВЧ-связи;
      • - радиостанция ВЧ-связи;
      • - радиостанция для аварийной связи.
      • - Радиостанция СВЧ-связи предназначена для оперативной связи в пределах прямой радиовидимости (до 350 км). Она работает в диапазоне 118-137,975 МГц, шаг частоты настройки 25 кГц. Так как это основная связная система, на ЛА устанавливают 2 комплекта аппаратуры - один основной, другой резервный. Соответственно имеется две антенны, одна - верхнего расположения (на нее работает основной комплект), другая - нижнего расположения (на нее работает второй комплект).
      • Радиостанция ВЧ-связи (рисунок 1.1) предназначена для дальней связи на расстояниях до 3000 км. Диапазон частот ВЧ-связи 2-30 МГц, шаг настройки 1000 Гц (28000 каналов). На ЛА устанавливают 1 или 2 комплекта аппаратуры.
      • Портативная радиостанция для аварийной связи и подачи сигналов бедствия работает на частотах 121,5 и 243 МГц.
      • В приполярных и полярных районах нужна еще радиостанция диапазона 325-530 кГц.
      • Выбор радиостанции для связи и настройка ее частоты на современных ЛА производится при помощи того же многофункционального пульта управления, который используется для настройки радионавигационных систем. Для этого в приемопередатчиках предусматривается прием стандартного цифрового последовательного кода, которым передается частота настройки от МФПУ.
      • Рисунок 1.1 Радиостанция ВЧ-связи
      • На многих современных ЛА устанавливается станция спутниковой связи.
      • Спутники связи логично дополняют орбитальные группировки глобальных навигационных систем, позволяя значительно улучшить характеристики последних за счет использования систем регионального увеличения RAS (Regional Augmentation System). По широкополосному каналу этой системы осуществляется ретрансляция сигналов наземных станций СНС. Однако основное назначение спутниковой связи заключается в организации служебной связи и связи пассажиров с абонентами, находящимися вне пределов прямой радиовидимости.
      • Системы спутниковой связи обеспечивают высококачественную цифровую связь с высокой степенью надежности в любой точке земного шара.
      • Летные экипажи с помощью спутниковой связи получают доступ к информации служб обеспечения полетов, в том числе к информации о метеоусловиях. Экипажи получают доступ к оперативной информации аэропортов о положении на воздушных трассах. При этом сообщения об изменениях графика движения поступают в реальном масштабе времени. С борта на землю через спутник передаются данные для управления полетом, например, о количестве топлива на борту, расчетное время прибытия, показания аппаратуры. Используя эту информацию, персонал наземных служб может лучше спланировать подготовку необходимого оборудования для минимизации времени обслуживания самолета.
      • Важное значение имеет передача экстренных сообщений об аварийных ситуациях, попытке угона самолета и т.п. Пассажирам спутниковая связь дает возможность в полете разговаривать по телефону и посылать факсимильные сообщения или цифровые компьютерные данные в любую точку земного шара. Бортовые телекоммуникационные службы спутниковой связи позволяют осуществлять продажу билетов и резервирование мест прямо на борту самолета, а также организовывать ряд дополнительных услуг.
      • Спутниковая система связи состоит из наземной станции связи, спутников и бортовой станции связи. Наземная станция выполняет функции управления системой и представляет собой «шлюз» для входа в наземные сети связи. Спутники, расположенные, как правило, на геостационарных орбитах, транслируют сигналы связи между бортовыми станциями связи и наземными станциями или между наземными станциями.
      • Бортовые станции связываются со спутниками на частотах L-диапазона (1530-1670 МГц) и через них - с наземными станциями связи. Бортовая станция включает систему связи салона, терминал спутниковой связи, одну или несколько антенн (для обеспечения многоканальности). Система связи салона содержит блок сопряжения с телефонами, факсимильными аппаратами и компьютерами пассажиров, с оборудованием связи кабины, с бортовым оборудованием связи, включая сопряжение с Североамериканской телефонной системой (NATS), Европейской телефонной системой связи земля - самолет (TFTS) и системой Gatelink. NATS представляет собой сотовую телефонную систему СВЧ-диапазона, TFTS является европейской сотовой телефонной системой L-диапазона, а система Gatelink- это система сопряжения со службами телекоммуникации, доступными через межсетевой интерфейс. Блок сопряжения выполняет те же функции, что и учрежденческая АТС с входящей и исходящей связью.
      • Стандартная система связи ЛА обеспечивает гибкость в выборе типов телефонных аппаратов, факсимильных аппаратов, компьютеров и оборудования кабины, поэтому требуется еще один блок - промежуточный блок спутниковой телекоммуникации, который транслирует сигналы из блока сопряжения в формат, используемый системой спутниковой связи и передает в терминал спутниковой связи. В терминале происходит формирование сигналов для передачи речевой информации, факсимильной информации и данных, выполняются функции модуляции/демодуляции, исправления ошибок, кодирования, уплотнения, преобразование в высокочастотные сигналы с полосой частот 1626,5-1660, 5 МГц. Входные сигналы принимаются антенной системой с полосой радиочастоты 1530-1559 МГц и поступают в терминал для демодуляции.
      • Доступный уровень обслуживания зависит от скоростей пропускания каналов системы, которые, в свою очередь, зависят от коэффициента усиления антенной системы. Антенная система с низким коэффициентом усиления имеет одну небольшую антенну со всенаправленной диаграммой направленности. Она позволяет вести передачу данных с малой скоростью передачи (600 бит/с). Применение антенны с высоким коэффициентом усиления позволяет осуществлять высокоскоростную передачу данных, речевых и факсимильных сообщений со скоростью 21000 бит/с. Коэффициент усиления такой антенны увеличивается путем фокусирования большого количества энергии в нужном направлении, а это означает наличие более узкого главного лепестка диаграммы направленности антенны.
      • Следовательно, главный лепесток диаграммы направленности антенны с высоким коэффициентом усиления должен управляться и ориентироваться на спутник. Для этого терминал спутниковой связи непрерывно определяет направление на спутник. Данные углов тангажа и крена, а также курса, широты и долготы самолета терминал принимает от инерциальной навигационной системы. Положение всех спутников в системе связи хранится в его памяти. Используя данные о местоположении спутников и данные о текущем положении ЛА, терминал вычисляет направление на ближайший спутник. Данные об этом угле наведения поступают в подсистему антенны с высоким коэффициентом усиления, которая нацеливает луч в нужном направлении.
      • Кроме перечисленных систем на борту ЛА может устанавливаться следующая радиосвязная аппаратура:
      • - радиолокационный ответчик УВД;
      • - система селективного вызова;
      • - система адресной связи;
      • - аппаратура внутренней связи экипажа;
      • - усилитель связи с пассажирами.
      • Радиолокационный ответчик УВД предназначен для работы с наземными аэродромными и трассовыми вторичными радиолокаторами служб управления воздушным движением. В зоне действия такого радиолокатора ответчик обеспечивает автоматическую выдачу координатной отметки местоположения ЛА и информацию о высоте полета и номере (идентификаторе) ЛА. Для отечественных систем УВД ответчик передает также информацию об остатке топлива. Современные ответчики предусматривают также возможность приема информации от служб УВД для передачи ее пилотам. Частота работы в передающем режиме 1090±0,06 МГц, в приемном - 1030 МГц.
      • Ответчик содержит два приемопередатчика, каждый из которых работает на верхние, нижние и килевые антенны, а также пульт управления.
      • Система селективного вызова позволяет осуществлять вызов конкретного самолета или вертолета с наземной станции по радиоканалу.
      • Наземную часть системы составляют кодер (блок, осуществляющий селективную кодировку) и ВЧ- или СВЧ-передатчик. На борту устанавливается приемник, декодер и панель установки кода ЛА.
      • Система адресной связи использует существующее радиосвязное оборудование для передачи с самолета на землю и обратно цифробуквенной информации в формате ACARS. Существующие системы адресной связи работают в ВЧ-диапазоне. Новое поколение этих систем будет использовать СВЧ-диапазон.
      • Аппаратура внутренней связи обеспечивает:
      • - двустороннюю телефонную связь между членами экипажа;
      • - двустороннюю телефонную связь экипажа с бортпроводниками;
      • - двустороннюю телефонную связь бортпроводников между собой;
      • - двустороннюю радиосвязь экипажа через любую из бортовых радиостанций;
      • - прослушивание экипажем сигналов опознавания радионавигационных систем и звуковых сигналов маркерных радиомаяков;
      • - прослушивание экипажем специальных звуковых и речевых сообщений, формируемых бортовыми системами (СППЗ, КИСС и т.п.);
      • - звуковую сигнализацию экипажу вызова бортпроводников.
      • Бортовой усилитель связи с пассажирами обеспечивает:
      • - голосовую связь от пилота к экипажу и пассажирам;
      • - голосовую связь от бортпроводника к пассажирам;
      • - усиление записанных сообщений и музыки;
      • -тональные звонки (вызов бортпроводника, "Не курить" и т.п.).
      • В настоящее время в авиации внедряются глобальные телекоммуникационные сети, предназначенные для передачи цифровых данных с земли на ЛА и с ЛА на землю. Эти сети будут связывать в единое целое все составляющие гражданской авиации - находящиеся в воздухе и на земле летательные аппараты, авиакомпании, службы управления воздушным движением, службы погоды и т.д. Они будут обеспечивать связь, навигацию, управление воздушным движением. Бортовая аппаратура пополниться 1-2 телекоммуникационными терминалами, сигнальным табло и маршрутизатором. Для передачи информации с борта и приема адресованной ЛА информации будут использоваться уже имеющиеся радиостанции.
      • Терминал устанавливается в кабине. Он представляет собой компактный индикатор с маленьким цифробуквенным экраном и несколькими кнопками вокруг него.
      • Маршрутизатор устанавливается в техническом отсеке. Он обеспечивает включение данного ЛА в глобальную сеть. Задачей маршрутизатора является выбор самого эффективного маршрута передачи данных и выбор между всеми возможными средствами связи (ВЧ-радиостанция, СВЧ- радиостанция, терминал спутниковой связи).
      • С появлением такой системы изменяется общение пилота с диспетчером: вместо голосовой связи они будут обмениваться стандартными сообщениями.
      • Предполагается, что это позволит уменьшить количество возникающих недоразумений, вызванных некачественной радиосвязью и плохим владением английским языком. Кроме того, это позволит разгрузить радиодиапазон, который в настоящее время уже переполнен. Пилот будет выбирать на своем терминале одно из 128 возможных сообщений, которое он будет посылать одним нажатием кнопки. О приходе сообщений с земли пилота предупредит сигнальное табло, а само сообщение (диспетчера или кого-то другого) пилот увидит на экране своего терминала.
      • Еще одна функция телекоммуникационных сетей - обеспечение автоматического зависимого наблюдения, то есть слежение за летательными аппаратами с земли и с других ЛА. Приемопередатчик ЛА будет на определенной частоте раз в секунду передавать всем другим информацию о своем ЛА - его идентификатор, координаты и высоту. В то же время он будет принимать подобные же данные от всех других ЛА. Наземные центры УВД будут передавать на борт данные по тем ЛА, которые не оборудованы подобными системами. Вся эта информация поступит в маршрутизатор, а оттуда - в систему индикации, на экранах которой пилот сможет увидеть ситуацию с воздушным движением вокруг своего ЛА.

2. Методы и алгоритмы повышения разборчивости речи, критерии разборчивости

2.1 Определение понятия "качество передачи речи"

Тракт передачи речи (ТПР), обобщенная схема которого приведена на рисунке 2.1, состоит из микрофона М, передающей аппаратуры (ПА), канала связи (КС), приемной аппаратуры (ПрА), телефона (Т) [1].

Рисунок 2.1 Тракт передачи речи

Согласно [1], основными критериями качества тракта передачи речи служат:

- разборчивость;

- громкость;

- натуральность.

При этом громкость не является самодостаточным параметром - она используется совместно с разборчивостью и определяет желаемый (комфортный) уровень принимаемых сигналов. Даже из личной практики каждого человека известно, что чересчур низкий уровень громкости приводит к снижению разборчивости. Исследования показывают, что разборчивость понижается и при чересчур высоком уровне громкости речи.

Натуральность речи - это способность системы воспроизводить не только смысл передаваемой речи, но и ее тембр, индивидуальные особенности речи диктора. Для трактов передачи речи (телефонная связь, радиосвязь) эта характеристика является второстепенной, за исключением тех случаев, когда стоит задача высококачественного воспроизведения речи диктора (или пения). В нашем случае натуральность речи также является второстепенной, если только не стоит задача определения личности диктора.

Таким образом, разборчивость речи является основным параметром, характеризующим тракт передачи речи.

2.2 Методы измерения разборчивости речи

Все методы измерения разборчивости речи условно делятся на субъективные и объективные [1]. «Условно» - поскольку существует по меньшей мере две трактовки «субъективности-объективности» метода.

Первая трактовка. Согласно первой трактовке, при субъективном методе разборчивость речи оценивают по результатам единственного опыта - отсюда неизбежное влияние на результаты измерений особенностей речи и слуха людей, участвующих в испытаниях. Чтобы объективизировать метод, нужно осуществить много экспериментов с различными дикторами и абонентами, а затем усреднить результаты измерений.

Разборчивость передаваемой речи оценивают по пятибалльной шкале Международного Консультативного Комитета по Радиосвязи (МККР) [1]:

- неразборчиво;

- разборчиво временами;

- разборчиво с трудом;

- разборчиво;

- совсем разборчиво.

Примером объективизации измерений разборчивости речи служат современные методы оценки качества передачи речи по трактам связи, изложенные в Государственном стандарте Российской Федерации [3], согласно которым в испытаниях должно участвовать не менее 3-х дикторов и 4-5-ти аудиторов, удовлетворяющих ряду условий (отсутствие выраженных дефектов речи и слуха, нетренированность). Например, при оценивании фразовой разборчивости диктор читает одну таблицу фраз в нормальном темпе произнесения (одна фраза за 2,4 с) и вторую таблицу в ускоренном темпе (одна фраза за 1,5-1,6 с). Пауза между фразами должна быть 5-6с. Аудитор прослушивает сначала таблицу, прочитанную диктором в нормальном темпе, затем таблицу, прочитанную тем же диктором в ускоренном темпе. Правильность приема фраз определяют по квитанции, переданной по каналу телефонной связи. Цикл измерений состоит из передачи всеми дикторами по 10 таблиц каждым, и приема всеми аудиторами всех переданных таблиц. Фразу считают неправильно принятой, если хотя бы одно слово принято неправильно, пропущено или добавлено. Фразовую разборчивость определяют путем вычисления процента правильно принятых фраз для нормального и ускоренного темпов произнесения по формуле 2.1

(2.1)

где ji - результат единичного измерения фразовой разборчивости, %; N - число единичных измерений; JН - фразовая разборчивость при нормальном темпе произнесения, %; JУ - фразовая разборчивость при ускоренном темпе произнесения, %.

Методы, описанные выше, называют артикуляционными. При их использовании необходимо располагать специальными артикуляционными таблицами, составление которых - самостоятельная сложная задача. Другой недостаток артикуляционных методов - большое время испытаний, составляющее несколько недель.

Очевидное достоинство артикуляционных методов - простота, позволяющая участвовать в испытаниях операторам с относительно низким уровнем технической квалификации.

Вторая трактовка. При второй трактовке «субъективности-объективности» метода субъективными называют все методы, в которых человек является составной частью измерительного тракта, а объективными - такие методы, в которых весь измерительный процесс осуществляется приборами без участия органов чувств человека. С этой целью передающий и принимающий операторы должны быть заменены искусственными эквивалентами («искусственный голос», «искусственное ухо»).

Тональный метод. В [1] описывается два метода измерения разборчивости речи, базирующихся на такой трактовке объективности. В так называемом «тональном методе» несколько дикторов заменены единственным искусственным голосом, который генерирует чистые тоны. Искусственный голос представляет собой обычный громкоговоритель без диффузора, возбуждаемый с помощью тонального генератора таким образом, чтобы уровень звуковых давлений, создаваемых на различных частотах, соответствовал бы кривой спектра формант. Помещение передачи и помещение приема речевых сигналов искусственно зашумляют - тем самым обеспечивают требуемое отношение сигнал-шум, при котором испытываемая система должна нормально функционировать. Прием информации по-прежнему производит бригада аудиторов. При этом задача аудиторов упрощается: вместо того, чтобы осмыслить и записать услышанное звукосочетание, от них требуется лишь определить, слышен ли сигнал на данной частоте или не слышен. Кроме того, операторы должны измерить уровень ощущения формант - делается это весьма просто, путем введения положительного или отрицательного затухания в тракт связи. Если сигнал слышен, затухание делают положительным, пока сигнал перестанет быть слышным. Наоборот, если сигнал не слышен, затухание делают отрицательным, пока сигнал не станет слышным. Дальнейшее определение величины разборчивости речи производят аналитически, с помощью графиков и несложных формул.

Таки образом, тональный метод, в отличие от артикуляционного, можно отнести к косвенным методам измерений разборчивости.

Достоинства тонального метода:

1) не применяются артикуляционные таблицы;

2) значительное сокращение времени измерений.

Недостатки тонального метода:

1) повышенные требования к технической грамотности персонала, организующего испытания;

2) человек еще не выведен из состава измерительной системы.

Как указано в [1], тональный метод регламентирован ГОСТ № 8031-78.

Объективный метод. В другом методе, именуемом «объективным», применяют как искусственный голос, так и искусственное ухо. В данном методе, как видим, человек полностью выведен из состава измерительной системы. Следует отметить, что искусственное ухо - обычный в технике акустических измерений прибор, применяемый при испытании телефонов и позволяющий воспроизвести акустическую нагрузку, создаваемую на телефон естественным ухом. Тем самым удается измерить звуковое давление, создаваемое звучащим телефоном в ухе.

Общий порядок измерений при этом такой:

1) С помощью генератора шума и громкоговорителя создают уровень шума, соответствующий условиям работы приемного конца испытуемого тракта. Измеряют уровень шума на выходе искусственного уха в критической полосе частот слуха, причем средняя частота этой полосы равна частоте измерительного тона.

2) Генератор шума выключают, а вместо него на вход тракта «искусственный голос - канал передачи - искусственное ухо» подают тональный сигнал. Уровень интенсивности звука на микрофоне берется таким, чтобы при условном нуле на регулировщике затуханий распределение звуковых давлений соответствовало кривой спектра формант.

3) С помощью регулирования затуханий добиваются, чтобы уровень сигнала на выходе искусственного уха был таким же, как уровень шума. Показания регулятора затуханий представляют собой результат измерений уровня ощущений.

4) Далее, как и в тональном методе, определение величины разборчивости речи производят аналитически, с помощью графиков и несложных формул (тех же).

Объективный метод точнее и быстрее тонального, для его проведения не нужны операторы (дикторы и аудиторы). Наконец, объективный метод принципиально позволяет полностью автоматизировать процедуру измерений на базе современных ЭВМ.

Как и тональный метод, объективный метод является косвенным, т.е. разборчивость речи оценивается не путем подсчета правильно распознанных речевых единиц, а путем проведения специального измерительного эксперимента со звуковыми сигналами в виде тона и полосового шума, в ходе которого измеряются уровни ощущений в нескольких полосах частот. Разборчивость речи вычисляют, базируясь на результатах экспериментальных измерений.

Ввиду неоспоримых достоинств объективного метода, а также в силу отмеченного выше принципиального сходства ТПР и ТКУИ, в настоящее время объективный метод в той или иной модификации применяют как при оценке качества каналов связи [], так и при оценке эффективности защиты речевой информации [4,5,6]. Поэтому целесообразно подробно рассмотреть идею, лежащую в основе рассмотренных выше косвенных методов измерения разборчивости речи. При этом целесообразно также вспомнить некоторые положения психофизиологии речи и слуха, на использовании которых базируются косвенные методы.

2.3 Свойства речевых сигналов, влияющих на разборчивость

Спектральные свойства звуков речи. Спектры гласных звуков представляют собой (в первом приближении) периодическую последовательность спектральных пиков. Период следования этих пиков называют частотой основного тона. Выраженные всплески уровня «огибающей» спектральных пиков именуют «формантами» (рисунок 2.2).

Рисунок 2.2 Вид спектра гласного звука

Полезная информация о гласном звуке речи содержится в описании соответствующих формант. Принято каждую форманту описывать ее граничными частотами. В русском языке достаточно ограничиться одной-двумя формантами, чтобы достигнуть приемлемой разборчивости речи.

Спектры согласных звуков либо полностью сплошные, т.е. совсем не содержат дискретных компонентов, либо сплошные в отдельных полосах частот. Эти спектры также содержат локальные всплески. Некоторые из них являются формантами, некоторые - нет.

Чтобы решить, какие всплески уровня спектра являются формантами, следует помнить, что физическая природа формант - явление резонанса в полостях глотки и носоглотки (рисунок 2.3).

Рисунок 2.3 Полости глотки (1) и носоглотки (2-4)

В отдельных звуках можно заметить до 6 спектральных подъемов. К формантам относятся только те, которые обусловлены явлением резонанса в речевом аппарате человека. Часть формант (как указывалось - одна-две в русском языке) обеспечивают разборчивость речи, другая часть обеспечивает индивидуальность голоса диктора, что может быть использовано в задачах распознавания голоса (идентификации) диктора.

Форманты звуков речи расположены в области частот от 200 до 8600 Гц. Однако подавляющая часть формант звуков речи находится в пределах от 300 до 3000 Гц, поэтому такую полосу обычно считают достаточной для хорошей разборчивости речи. Спектральные различия между звуками речи являются главными, хотя и не единственными. Например, при распознавании согласных звуков важны и временные характеристики.

Интегральные спектральные характеристики речи. Как следует из названия, интегральные спектральные характеристики речи характеризуют свойства речевого процесса в целом [1]. Сюда относят:

- спектр речи ;

- спектр формант ;

- относительную встречаемость формант по спектру .

Спектром речи называют оценку спектральной плотности мощности речевого сигнала , вычисленную по отрезку речевого сигнала значительной протяженности (более минуты). Спектр речи характеризует распределение мощности речевого сигнала по частоте.

Спектром формант называют зависимость наиболее вероятного уровня формант от частоты. Чтобы оценить спектр формант, необходимо также располагать отрезком речи большой протяженности. Спектр формант на всех частотах меньше спектра речи (рисунок 2.4):

.

Рисунок 2.4 Соотношение спектра речи и спектра формант [1]

Относительная встречаемость формант по спектру может быть оценена так. Разобьем весь диапазон частот на полоски, например, по 100 Гц, и подсчитаем относительное число формант (в %) каждой полоске. Результат такого подсчета даст нам кривую (рисунок 2.5).

Рисунок 2.5 Относительная встречаемость формант [1]

2.4 Свойства слуха, влияющие на разборчивость

Для оценивания разборчивости речи наибольшее значение имеют следующие характеристики слуховой системы человека, именуемые «постоянными слуха» [1]:

- порог слышимости ;

- логарифмическая ширина критической полосы слуха ;

- маскировка слуха .

Порог слышимости - это минимальное звуковое давление, ниже которого ухо не воспринимает звук (рисунок 2.6). Выражается в децибелах, по отношению к давлению , соответствующему пороговой величине давления звука на частоте 1000 Гц.

Рисунок 2.6 Порог слышимости и болевой порог [1]

Рисунок 2.7 Критическая полоса слуха [1]

Ширина критической полосы слуха - это разрешающая способность слухового аппарата человека, который можно уподобить гребенке фильтров. Например, на частоте 100 Гц критическая полоса слуха близка 100 Гц, а на частоте 8000 Гц - близка 600 Гц (рисунок 2.7). Для удобства расчетов вводят понятие логарифмической критической полосы слуха (рисунок 2.8):

.

Рисунок 2.8 Логарифмическая критическая полоса слуха [1]

Маскировка слуха - это явление ослабления слышимости или полного пропадания полезного звука на фоне мешающего звука. Количественно выражается как разница:

, (2.2)

где - порог слышимости при наличии мешающего звука. На рисунке 2.9 приведено семейство индивидуальных кривых маскировки для различных уровней маскирующего сигнала . Здесь - разность высот тона маскирующей и маскируемой компонент, причем высота тона измеряется в Барках:

.

Рисунок 2.9 Семейство индивидуальных кривых маскировки [7]

2.5 Разработка методики оценки разборчивости

Различают [1] следующие виды (меры) разборчивости речи:

- разборчивость формант ;

- разборчивость звуков ;

- разборчивость слогов ;

- разборчивость слов ;

- разборчивость фраз .

При расчете разборчивости приходится иметь дело с частотно-зависимыми функциями. Поэтому результаты количественного расчета для различных участков спектра различны. Ввиду этого задача расчета решается разделением диапазона частот, используемого для передачи речи, на узкие полосы, внутри которых можно не считаться с указанной частотной зависимостью и относить полученные результаты к средней частоте полосы. Далее вычисляется разборчивость для каждой полосы частот, а общая разборчивость находится суммированием «полосовых» разборчивостей.

Поскольку свойством аддитивности обладает только формантная разборчивость:

, (2.3)

где - формантная разборчивость в -той полосе частот, идея расчета сводится к предварительному вычислению величины , с последующим пересчетом ее в величины , , , , на основании имеющейся информации о зависимости между разными мерами разборчивости.

Разборчивость в каждой полосе можно представить в виде:

, (2.4)

где - формантная разборчивость в отсутствие мешающих факторов (шум, влияние тракта передачи); - коэффициент восприятия, учитывающий потери разборчивости из-за наличия мешающих факторов.

Разделение диапазона частот речевого сигнала на полосы можно производить по-разному. В [1] называется два способа:

- деление на полосы одинаковой ширины;

- деление на равноартикуляционные полосы,

причем предпочтение отдается второму способу, позволяющему упростить выкладки. Количество полос при этом предлагается выбрать равным . В работе [8] также выбран способ деления на равноартикуляционные полосы.

В [2-9] указывается иной способ - деление на октавные или третьоктавные полосы. Количество полос при этом предлагается выбрать равным .

По-видимому, выбор способа деления на полосы частот - вопрос не столько принципиальный, сколько зависящий от «вкуса» исследователя.

Рассмотрим далее идею расчета разборчивости речи, исходя из принципа деления на равноартикуляционные полосы [1]. При этом ,поскольку, в силу вероятностного характера формантной разборчивости, справедливо соотношение .Таким образом, . Величины определяют, исходя из эмпирической функциональной зависимости (функцию называют «постоянной артикуляционной характеристикой речи» [1]), где уровень ощущения формант вычисляют по формуле 2.5:

, (2.5)

где - значение спектра формант на входе тракта; - порог слышимости; - маскировка от шумов всех видов; - затухание в тракте; - логарифмическая ширина критической полосы слуха.

Для достаточно высоких уровней шума:

выражение для уровня ощущения формант можно вычислять по упрощенной формуле 2.6:

(2.6)

Вид зависимости приведен на рисунке 2.10.

Рисунок 2.10 Вид зависимости

Отметим два важных обстоятельства. Во-первых, функция не зависит от полосы частот. Во-вторых, в литературе можно встретить весьма различающиеся кривые . Например, даже в работе [1] встречаем две такие кривые: для «идеализированной артикуляционной бригады» и для «типовой артикуляционной бригады». А в работе [5] приводится аналогичная зависимость, существенно отличающаяся от соответствующих кривых в работе [6]. Более внимательный анализ работы [10] показывает, что здесь вместо спектра формант используют спектр речи , и, как следствие, вместо уровня ощущения формант используют уровень ощущения речи (формула 2.7):

(2.7)

Таким образом, в [5] вместо зависимости предлагают использовать сходную, но количественно отличающуюся зависимость .

Таким образом, хотя аналитическая методика расчета разборчивости речи на сегодняшний день проработана теоретически и экспериментально весьма глубоко, при практическом ее использовании следует помнить о существовании множества модификаций такой методики. Непродуманное «перекрестное» использование элементов этих методик может привести к неверным результатам расчета разборчивости речи.

2.5.1 Организация эксперимента по оценке

Рисунок 2.11 Зависимость слоговой словесной разборчивости от разборчивости

речь акустический шум разборчивость

Рисунок 2.12 Зависимость от разборчивости формант разборчивости слогов

Рисунок 2.13 Зависимость фразовой разборчивости от разборчивости слов

3. Методы распознавания речи и их связь с повышением разборчивости

Распознавание речи - это общее название широкой области речевых технологий, за которым кроется целый ряд достаточно обособленных направлений, каждое из которых ориентировано на решение конкретных прикладных задач и требует отдельной проработки.

3.1 Технология распознавания речи

Система распознавания речи состоит, как правило, из трех основных компонентов: акустические модели, языковая модель и декодер.

Акустические модели Акустические модели позволяют оценить распознавание речевого сегмента с точки зрения схожести на звуковом уровне. Современные акустические модели для так называемого пофонемного распознавания основаны на использовании скрытых Марковских моделей (Hidden Markov Models - HMM) (рисунок 3.1).

Рисунок 3.1 Структура скрытой Марковской модели

Модели языка Использования чисто акустической информации недостаточно для осуществления качественного распознавания речи. Например, в реальных условиях (при наличии посторонних шумов и искажений речевого сигнала) ни одни даже самые точные акустические модели не смогут отличить слово крюк от слова трюк.

В такой ситуации важна информация о контексте: теме разговора и, что еще более важно, о тех словах, которые уже были распознаны ранее. Например, если ранее было распознано слово железный, то в этой ситуации гораздо вероятнее ожидать произнесения слова крюк, чем трюк. Подобная оценка и осуществляется языковой моделью.

При помощи грамматик можно вручную задать возможные последовательности слов, которые, как ожидается, произнесет говорящий. Такой подход эффективен для узких задач, когда пользователь поставлен жесткие в рамки определенной речевой ситуации. Например, грамматика может задавать произвольную последовательность цифр в том случае, если известно, что в данный момент пользователь отвечает на вопрос «Пожалуйста, продиктуйте номер вашего телефона».

Статистические модели языка используются при распознавании слитной речи, не ограниченной узкой ситуацией. В этом случае невозможно вручную создать грамматику, которая моделировала бы все возможные сочетания слов в языка. Вместо этого на основании текстовых данных большого объема (десятки миллионов слов) строится статистическая модель, которая оценивает вероятности следования слов друг за другом. Для примера, приведенного выше, такая модель могла бы сообщить, что вероятность словосочетания железный крюк в 30 раз больше, чем железный трюк.

Декодер Декодер - это программный компонент системы распознавания, который совмещает данные, получаемые в ходе распознавания от акустических и языковых моделей, и на основании их объединения определяет наиболее вероятную последовательность слов, которая и является конечным результатом распознавания.

На первый взгляд декодер - наименее нагруженный в научном плане компонент системы распознавания. Однако, быстрый и надежный декодер является главным фактором успеха любой прикладной системы распознавания. Создание такого декодера - сложнейшая техническая задача, требующая высочайшей квалификации разработчиков.

3.2 Методы распознавания речи

Методы распознавания речи бывают следующих видов:

1. Распознавание голосовых команд

Распознавание голосовых команд предусматривает, что пользователь произносит отдельные команды из заранее предопределенного списка.

Такие системы используются для организации управления голосом отдельными компьютерными программами или устройствами.

2. Языконезависимое распознавание

Не зависящее от языка распознавание команд предполагает обязательную тренировку системы голосом.

Для того чтобы создать эталон новой команды пользователь должен несколько раз произнести данную команду в микрофон. Подобные системы распознавания применимы для случаев, когда количество команд составляет не более одной сотни.

3. Распознавание команд на русском языке

Пофонемное распознавание команд может быть организовано на основании скрытых Марковских моделей. В этом случае распознавание возможно только для одного конкретного языка, для которого уже разработаны соответствующие акустические модели.

Главными преимуществами этого подхода является то, что словарь надежно распознаваемых команд может значительно превышать 100 единиц (вплоть до тысячи), а для добавления новой команды, которая будет распознаваться, достаточно лишь ввести ее в текстовом виде с клавиатуры.

4. Выделение ключевых слов в потоке речи

В современном мире наиболее актуальной задачей является не сохранение информации, а организация эффективного поиска в ней. Если для текстовой информации существует большое количество различных решений, то поиск в речевых архивах или потоках речи в режиме реального времени - гораздо менее разработанная область.

Технология выделения ключевых слов на основе пофонемного распознавания позволяет автоматически находить в речи слова и словосочетания, представляющие интерес для пользователя. При этом слова для поиска вводятся в текстовом виде с клавиатуры - никакой тренировки системы голосом не требуется.

5. Распознавание на основе грамматик

Распознавание речи на основе грамматик находит широкое применение в системах с диалоговой структурой общения пользователя с автоматической системой (например, системы голосового самообслуживания для колл-центров).

При помощи грамматик можно задать структуру диалога и смоделировать общение человека с компьютером. Грамматика в своем самом простом виде представляет собой просто набор слов - в этом случае реализуется схема распознавания голосовых команд.

6. Распознавание слитной русской речи

Распознавание слитной спонтанной речи - конечная цель всех усилии по распознаванию речи. Это сложная и многогранная задача. В настоящее время существуют системы, ориентированные на распознавание слитной речи для нескольких наиболее распространенных языков (в первую очередь английского).

Тем не менее, не существует систем, осуществляющих качественное распознавание слитной речи без каких-либо ограничений. Такими ограничениями являются уровень окружающего шума, канал передачи речевой информации, темы распознаваемого разговора. Распознавание слитной русской речи - особенно сложная задача в виду особенностей русского языка (высокая флективность, свободный порядок слов). Применение подходов, разработанных для английского языка, в большинстве случаев оказывается весьма малоэффективным. Тем не менее, в ЦРТ разработан прототип подобной системы, реализующий все необходимые программные компоненты: акустические и языковые модели русского языка, а также эффективный однопроходный декодер.

4. Классификация и анализ акустических шумов в кабине летательного аппарата, разработка контрольного генератора

Рисунок 4.1 Классификация шумов

В следующем разделе представлено построение в среде Matlab модели элементов известной методики измерения разборчивости речи по отношениям сигнал-шум в нескольких полосах частот, перекрывающих частотный диапазон речевого сигнала [1,2].

4.1 Формирование шумов

Для анализа эффективности шумоподавления необходимо в модельном эксперименте уметь воспроизводить не только речевые (полезные) сигналы, но и шумы (мешающие воздействия). Для моделирования шумов возможно два варианта:

1. Использование фрагментов реальных шумов, управляемых по уровню (рисунок 4.2);

2. Формирование шумов на базе «белого шума» с различными вариантами формирования спектра.

Рисунок 4.2 Структурная схема использования фрагментов реальных шумов в смеси с полезным сигналом

Предположим, что речевой сигнал предварительно вводят в компьютер с помощью звуковой карты. Параметры речевого сигнала - пиковое напряжение не выше 1 В, длительность - от нескольких единиц до нескольких десятков секунд. Режим ввода речевого сигнала: моно, частота дискретизации 8000 Гц.

Контролируемые параметры:

1) отношение сигнал-шум во всей полосе частот

,

где и - дисперсии сигнала и шума, соответственно;

2) характер (окрашенность) шума: белый, розовый (спад спектра мощности со скоростью 3 дБ/октаву), коричневый (спад спектра мощности со скоростью 6 дБ/октаву).

Измеряемые параметры:

1) парциальные отношения сигнал шум на выходе гребенки фильтров, перекрывающих частотный диапазон речевого сигнала;

2) артикуляционная разборчивость речи;

3) словесная разборчивость речи.

Одна из возможных обобщенных схем экспериментальных исследований подобного рода приведена на рисунке 4.3.

Рисунок 4.3 Этапы экспериментальных исследований

4.2 Формирование аддитивной смеси речевого сигнала с шумом

Схема формирования аддитивной смеси речевого сигнала с шумом приведена на рисунке 4.4.

Рисунок 4.4 Схема формирования аддитивной смеси речевого сигнала с шумом

В схеме на рисунке 4.4 коэффициент осуществляет корректировку уровня речевого сигнала так, чтобы обеспечить требуемое отношение сигнал-шум .

Моделирование шума удобно осуществлять средствами Simulink (рисунок 4.5), при этом длительность генерируемого отрезка шума должна в точности совпадать с длительностью речевого сигнала.

Приведенные выше схемы и алгоритмы универсальны в том смысле, что пригодны как для белого, так и для окрашенных шумов. Ниже приведены несколько примеров применения этих схем и алгоритмов для моделирования аддитивной смеси сигнала и шума с заданным отношением сигнал-шум и заданной окрашенностью шума.

Рисунок 4.5 Схема генерирования окрашенного (в частности - белого) шума

4.2.1 Белый шум

Как следует из схемы рисунок 4.5, окрашенный шум может быть создан путем пропускания белого шума через гребенку полосовых фильтров, с последующим взвешенным суммированием откликов каждого из фильтров:

, (4.1)

где - отклик -того фильтра.

В частном случае генерирования белого шума все весовые коэффициенты одинаковы и могут быть приняты равными единице: . С целью экономии времени измерений, в работах [2] предложено ограничиться 5 октавными полосовыми фильтрами, средние (среднегеометрические) и граничные частоты которых приведены в табл. 4.1.

Таблица 4.1

1

2

3

4

5

Средн.частота

250

500

1000

2000

4000

Диапазон частот, Гц

180...355

355...710

710...1400

1400...2800

2800...5600

На рисунках 4.6-4.10 приведены графики спектров синтезированного, в соответствии с выражением (4.1), шума, сигнала и смеси для отношений сигнал-шум -18.7 дБ, -14.7 дБ, -10.7 дБ и 0.7 дБ.

Рисунок 4.6 Спектр белого шума, полученный с помощью схемы рисунок 4.5

Рисунок 4.7 Спектры шума, речи и смеси для SNR = - 18,7 дБ

Рисунок 4.8 Спектры шума, речи и смеси для SNR = - 14,7 дБ

Рисунок 4.9 Спектры шума, речи и смеси для SNR = - 10,7 дБ

Рисунок 4.10 Спектры шума, речи и смеси для SNR = - 0,7 дБ

4.2.2 Розовый шум

Для получения розового шума заданной дисперсии Dn1 удобно применить следующий прием. Выставим коэффициенты усиления в каждом из каналов: , , , , , а общий коэффициент усиления оставим равным единице: . Далее измерим дисперсию полученного шума - предположим, она оказалась равной Dn2. Общий коэффициент усиления тогда определяется соотношением:

(4.2)

и может быть вычислен с помощью команды:

Kob = sqrt(Dn1/Dn2)

Графики спектров мощности розового шума, речевого сигнала и смеси показаны на рисунках 4.11-4.15.

Рисунок 4.11 Спектр розового шума, полученный с помощью схемы рисунок 4.5

Рисунок 4.12 Спектры розового шума, речи и смеси для SNR = - 18,7 дБ

Рисунок 4.13 Спектры розового шума, речи и смеси для SNR = - 14,7 дБ

Рисунок 4.14 Спектры розового шума, речи и смеси для SNR = - 10,7 дБ

Рисунок 4.15 Спектры розового шума, речи и смеси для SNR = - 0,7 дБ

4.2.3 Коричневый шум

Для получения коричневого шума заданной дисперсии Dn1 удобно применить ту же методику, что и в случае генерирования розового шума. Отличие лишь в том, что коэффициенты усиления в каждом из каналов должны быть равны 4, 2, 1, 0.5, 0.25. соответственно.

Графики спектра мощности коричневого шума, речевого сигнала и смеси показаны на рисунках 4.16-4.20.

Рисунок 4.16 Спектр мощности коричневого шума

Рисунок 4.17 Спектры коричневого шума, речи и смеси для SNR = - 18,7 дБ

Рисунок 4.18 Спектры коричневого шума, речи и смеси для SNR = - 14,7 дБ

Рисунок 4.19 Спектры коричневого шума, речи и смеси для SNR = - 10,7 дБ

Рисунок 4.20 Спектры коричневого шума, речи и смеси для SNR = - 0,7 дБ

4.3 Модель оценивания разборчивости на базе измерения отношений сигнал-шум в парциальных каналах

Блок схема системы для измерений парциальных отношений сигнал-шум в каждом из каналов приведена на рисунках 4.21- 4.23.

Рисунок 4.21 Система для измерений парциальных отношений сигнал-шум

Входными сигналами системы являются исследуемые речевой сигнал и шум. На выходе системы получаем пять (по числу каналов) оценок парциальных отношений сигнал-шум:

. (4.3)

Из соотношения (4.3) следует, что измерения весьма просты и сводятся к раздельной многоканальной фильтрации речевого сигнала и шума, с последующим измерением дисперсий откликов каждого из фильтров.

Рисунок 4.22 Подсистема вычисления парциальных отношений сигнал-шум

Рисунок 4.23 Подсистема измерения парциальных дисперсий

4.4 Вычисление формантной и словесной разборчивости речи

При достаточно больших уровнях шума эффективный уровень ощущения речевого сигнала в каждом из частотных каналов равен отношению сигнал-шум в этом канале [1,2]:

. (4.4)

Эффективный уровень ощущения формант вычисляют, уменьшая (4.4) на разницу спектральных уровней речи и формант:

, (4.5)

где - центральные частоты каналов;

. (4.6)

Артикуляционную разборчивость вычисляют как сумму разборчивостей формант в каждой из полос:

, (4.7)

где - коэффициент восприятия речи:

, (4.8)

- вероятность пребывания формант в -том частотном диапазоне, ограниченном частотами и :

, (4.9)

. (4.10)


Подобные документы

Работы в архивах красиво оформлены согласно требованиям ВУЗов и содержат рисунки, диаграммы, формулы и т.д.
PPT, PPTX и PDF-файлы представлены только в архивах.
Рекомендуем скачать работу.