Модуль сжатия речевых сигналов цифровой АТС

Методы обработки и передачи речевых сигналов. Сокращение избыточности речевого сигнала как одна из проблем ресурсосберегающего развития телефонных сетей. Кодирование речевых сигналов на основе линейного предсказания. Разработка алгоритма программы.

Рубрика Коммуникации, связь, цифровые приборы и радиоэлектроника
Вид дипломная работа
Язык русский
Дата добавления 26.10.2011
Размер файла 324,7 K

Отправить свою хорошую работу в базу знаний просто. Используйте форму, расположенную ниже

Студенты, аспиранты, молодые ученые, использующие базу знаний в своей учебе и работе, будут вам очень благодарны.

Размещено на http://www.allbest.ru/

Содержание

  • Введение
  • 1. Обзор методов сжатия речи
  • 1.1 Избыточность речи
  • 1.2 Импульсно-кодовая модуляция
  • 1.3 Дельта-модуляция
  • 1.3.1 Линейная дельта-модуляция
  • 1.3.2 Адаптивная дельта-модуляция
  • 1.4 Дифференциальная ИКМ
  • 1.5 Адаптивная дифференциальная ИКМ
  • 2. Анализ технического задания
  • 2.1 Выбор метода сжатия речи
  • 2.2 Механизм речеобразования
  • 2.3 Кодирование речевых сигналов на основе линейного предсказания
  • 2.3.1 Методы анализа на основе линейного предсказания
  • 2.3.2 Выбор метода вычисления коэффициентов предсказания
  • 2.3.3 Автокорреляционный метод
  • 2.3.4 Вычисление коэффициента усиления модели
  • 3. Выбор и обоснование структурной схемы модуля сжатия речевых сигналов
  • 4. Выбор и обоснование принципиальной схемы модуля сжатия речевых сигналов
  • 5. Разработка алгоритма программы
  • 6. Экспериментальные исследования
  • 6.1 Методика проведения эксперимента
  • 6.2 Результаты эксперимента
  • 7. Разработка конструкции модуля сжатия речевых сигналов
  • Заключение
  • Список использованных источников

Введение

Методы цифровой обработки и передачи речевых сигналов в настоящее время интенсивно развиваются. Это, прежде всего, обусловлено прогрессом в области цифровой микросхемотехники, благодаря которому появилась реальная возможность изготовления сложной аппаратуры передачи сообщений, а также цифровых устройств распознавания речи, синтеза речи и др. Первые образцы таких устройств, уже освоенные промышленностью, вызвали повышенный интерес разработчиков к открывающимся возможностям и привлекли новых приверженцев этого направления исследований к изучению современных методов и алгоритмов цифровой обработки речи.

Обработка речевого сигнала предполагает в первую очередь формирование описания на основе некоторой модели с последующим преобразованием полученного представления в требуемую форму. Последним шагом в процессе обработки является выделение и использование информационного содержания сигнала.

Следует заметить, что конечная цель цифровой обработки сигналов такая же, как и при аналоговой обработке. Поэтому цифровые методы обработки требуют специального изучения в рамках общих методов обработки сигнала. Для этого имеется ряд серьезных причин. Первая, и возможно наиболее важная, заключается в том, что использование цифровых методов позволяет реализовать достаточно сложные алгоритмы обработки. Это также связано с успешным развитием технологии изготовления цифровых устройств. Цифровые системы надежны и компактны. Технология производства интегральных схем достигла в настоящее время такого уровня, когда сложнейшая система обработки может быть реализована в виде одной микросхемы. Скорость выполнения логических операций в микросхемотехнике столь высока, что в большинстве случаев системы обработки речевых сигналов могут функционировать в реальном масштабе времени.

Основная задача обработки и передачи речи - создание систем низкоскоростной передачи с высоким качеством восприятия сигнала, способных функционировать в реальных условиях.

Одной из ключевых проблем ресурсосберегающего развития телефонных сетей является сокращение избыточности речевого сигнала. Решение этой проблемы позволит в условиях заданного критерия качества связи увеличить пропускную способность линейных трактов и каналов передачи. Именно для сокращения избыточности и предназначено разрабатываемое устройство - модуль сжатия речевых сигналов цифровой АТС.

Уменьшение скорости передачи речевого сигнала (РС) с 64кбит/с до 7,8кбит/с, при сохранении достаточно хорошего качества восприятия речи, позволяет увеличить время, отводимое для записи сообщений в системе “голосовой почты" в цифровой АТС. Применение данного устройства позволит увеличить время записи сообщений примерно в восемь раз по сравнению с аналогом, в котором сигнал записывается без предварительного сжатия.

1. Обзор методов сжатия речи

1.1 Избыточность речи

Анализ речевых сигналов показывает, что при переходе от одного дискрета к другому проявляется значительная избыточность. В действительности коэффициент корреляции (мера предсказуемости) между соседними дискретами, следующими с частотой 8 кГц, составляет в общем случае 0.85 или больше. Все методы аналого - цифрового преобразования, описанные в последующей части этого раздела, с целью уменьшения скорости передачи приспособлены в той или иной степени к характеристикам речевых сигналов.

В дополнение к корреляции, существующей между соседними дискретами речевого сигнала, для уменьшения скорости передачи кодированного сигнала можно использовать и несколько других видов избыточности. Они перечислены в табл.1.1.

Таблица 1.1

Виды избыточности речевого сигнала

Во временной области

1. Неравномерное амплитудное распределение

2. Корреляция между дискретами

3. Корреляция, связанная с периодичностью в сигнале

4. Корреляция между периодами основного тона

5. Избыточность, связанная с неактивностью речи (паузы)

В частотной области

6. Неравномерный усредненный спектр

7. Кратковременный спектр звука

Неравномерное распределение амплитуд предполагает использование некоторых видов адаптивной регулировки усиления. Это обусловлено тем, что дискреты с меньшими значениями встречаются чаще, чем дискреты с большими значениями.

Корреляция между дискретами речи - кодируется только разность между соседними дискретами. Результаты измерений разностей накапливаются затем в декодере для восстановления сигнала.

Корреляция, связанная с периодичностью в сигнале объясняется тем, что в любой конкретный момент времени определенные звуки могут быть построены только из колебаний нескольких основных частот. Поэтому наблюдается сильная корреляция между большим числом дискретов, относящихся к нескольким периодам колебаний.

Корреляция между периодами основного тона - следствие долговременной периодичности, относящейся к основному тону. Кодируются звонкие отрезки речи на одном периоде основного тона и результаты этого кодирования используются как шаблон для последующих периодов основного тона в этом звуке.

Избыточность, связанная с неактивностью речи (паузы) определяется достаточно большой длительностью пауз в разговоре (около 60%). Кодирование заключается в определении речевой активности и освобождении канала по завершению каждого отрезка речи.

При рассмотрении вопросов применения цифровой обработки речевых сигналов к задачам связи следует выделить два основных способа кодирования речевых сигналов: формы и параметров (вокодерные методы). Кодирование формы речевого сигнала основано на сохранении формы колебания в процессе дискретизации и квантования. Параметрическое представление базируется на описании речевого сигнала, как выходного отклика модели речеобразования. На первом этапе построения параметрического представления речевое колебание подвергается дискретизации и квантованию, а затем обрабатывается для получения модели. Параметры модели обычно разделяются на параметры возбуждения и параметры голосового тракта.

Согласно рекомендациям МККТТ и требованиям ЕАСС (ВСС) полоса частот преобразуемого речевого сигнала ограничивается интервалом частот 0,3…3,4 кГц, а частота дискретизации при ИКМ в соответствии с теоремой отсчетов принимается равной fД =8 кГц.

Шкала уровней квантования рассчитывается таким образом, чтобы перекрыть весь диапазон изменения мгновенных значений выходного сигнала. Эта шкала может быть равномерной или неравномерной, фиксированной или адаптивно изменяемой в зависимости от параметров РС.

1.2 Импульсно-кодовая модуляция

Избыточность при обычном, ИКМ - кодировании указывает на возможность значительной экономии полосы передачи. Этот вид модуляции основан на дискретизации, квантовании отсчетов и кодировании номера уровня квантования (рис.1.1) /1/. Аналоговый сигнал после фильтрации преобразуется в последовательность узких импульсов, модулированных по амплитуде. Полученный АИМ - сигнал квантуется по величине с использованием равномерной, неравномерной или адаптивно изменяемой шкалы квантования. Конкретное квантованное значение речевого сигнала преобразуется в кодовое слово, которое характеризуется числом разрядов и алфавитом символов. В основном цифровом канале используется ИКМ с А или ? - законом компандирования. Здесь восьмиразрядное двоичное кодовое слово отображает: знак (полярность) отсчета, трехразрядный номер сегмента характеристики компандирования и четырехразрядный номер уровня квантования в данном сегменте. Могут быть предусмотрены дополнительные меры для повышения помехоустойчивости кодовых слов по отношению к цифровым ошибкам в тракте передачи.

Структурная схема кодека ДИКМ

Рис.1.1

1.3 Дельта-модуляция

Примером простого применения разностного квантования является дельта - модуляция (ДМ) /1/. В системах такого типа частота дискретизации выбирается во много раз больше, чем частота Котельникова. В результате соседние отсчеты оказываются в большой степени коррелированными. В системе с дельта - модуляцией используется простой одноразрядный (двухуровневый) квантователь. Таким образом, скорость передачи при использовании ДМ численно равна частоте дискретизации.

1.3.1 Линейная дельта-модуляция

В этом случае квантователь имеет только два уровня и шаг квантования фиксирован. Положительный уровень квантования соответствует c (n) =0, а отрицательный c (n) =1. Таким образом, согласно /1/,

Если крутизна входного сигнала максимальна, то для того, чтобы последовательность отсчетов (на выходе кодера) возрастала так же быстро, как и последовательность (на входе кодера) в области максимальной крутизны, необходимо потребовать выполнения неравенства

.

Иначе восстановленный сигнал будет “отставать” от исходного. Поскольку максимальная крутизна ограничивается шагом квантования, то возрастание или убывание последовательности происходит по соответствующей ступенчатой линии.

Шаг квантования определяет также и максимальную ошибку, когда крутизна мала. Например, если сигнал на входе равен нулю (канал не занят), сигнал на выходе квантователя представляет собой переменную последовательность нулей и единиц, что приводит к флуктуации восстановленного сигнала вокруг нулевого или иного постоянного уровня с размахом . Это вызывает т. н. шум дробления.

1.3.2 Адаптивная дельта-модуляция

Известен ряд методов адаптивной дельта - модуляции (АДМ) /1/. Большинство этих методов основано на адаптации по выходу, когда шаг квантования перестраивается по выходной последовательности кодовых слов. Подобное построение кодеков АДМ обладает тем преимуществом, что не требует синхронизации по кодовым словам, поскольку при отсутствии ошибок шаг квантования, как передатчика, так и приемника перестраивается в одной и той же кодовой последовательности. Поскольку минимальный шаг квантования может быть сделан значительно меньше, чем тот, который необходим для оптимальной работы линейного дельта - модулятора, шум дробления может быть существенно уменьшен. Аналогично максимальный шаг квантования можно сделать большим, чем максимальная крутизна входного сигнала, что приведет к уменьшению шума перегрузки по крутизне.

Улучшение качества систем АДМ достигнуто путем ее незначительного усложнения. Поскольку адаптация осуществляется по выходному потоку двоичных символов, система АДМ сохраняет основное преимущество систем с дельта - модуляцией, т.е. не требует синхронизации по кодовым словам.

По сути, дельта - модулятор представляет собой систему с дифференциальной ИКМ (ДИКМ). Дельта - модулятор также можно назвать одноразрядной системой с ИКМ. В общем случае, однако, термин “разностная ИКМ" применяется по отношению к системам, в которых квантователь имеет более двух уровней квантования.

1.4 Дифференциальная ИКМ

Дифференциальная ИКМ основана на нелинейном отслеживании за передаваемым сигналом. В кодере можно выделить цепь обратной связи, где используется местный декодер. Из выходного цифрового сигнала формируется сигнал (оценка, копия), сравниваемый с исходным передаваемым сигналом (рис.1.2). Сигнал разности после дискретизации квантуется и по знаку, и по величине, после чего формируются двоичные символы или кодовые слова цифрового сигнала. В отличие от случая ИКМ при дифференциальной ИКМ квантованию подвергается не сам исходный сигнал, а разность между ним и результатом предсказания, формируемым на выходе предсказателя. Погрешность квантования этой разности, определяемая используемым в кодере квантователем, характеризует различие между исходным сигналом и его квантованной копией (аппроксимирующим сигналом) на выходе предсказателя.

речевой сигнал сжатие модуль

На приемной стороне из принятого цифрового сигнала аналогичным образом формируется квантованный аппроксимирующий сигнал, который после низкочастотной фильтрации и усиления поступает на выход телефонного канала.

Структурная схема кодека ДИКМ

Рис.1.2

1.5 Адаптивная дифференциальная ИКМ

Учесть нестационарный характер речевого сигнала, а в частности медленное изменение его мощности (дисперсии), позволяет адаптивный квантователь. Шаг квантования изменяется в соответствии с дисперсией квантуемого сигнала, при этом оценка дисперсии может осуществляться в результате анализа либо входного, либо выходного сигнала квантователя. Соответственно имеем прямое (ПУ) и обратное (ОУ) управление квантованием. Достоинством алгоритмов с ПУ, когда оптимальная нагрузка квантователя регулируется по оценке кратковременной дисперсии входного сигнала, является высокая помехоустойчивость передачи информации о шаге квантования. Однако требуется дополнительная пропускная способность тракта для передачи сигнала управления в декодер.

Структурная схема адаптивного квантователя с прямым управлением (рис.1.3) содержит блок адаптации и адаптивно управляемые аналого - цифровой (АЦП) и цифро - аналоговый (ЦАП) преобразователи.

При обратном управлении квантованием оценивается кратковременная дисперсия сжатого (скомпрессированного) квантованного сигнала. В этом случае сигнал управления шагом квантования выделяется из последовательности кодовых слов с выхода кодера на передающей стороне и с входа декодера на приемной стороне. Структурная схема адаптивного квантователя с ОУ (рис.1.4) содержит те же функциональные элементы, что и квантователь с ПУ, изменилось лишь место включения входа блока адаптации.

В дифференциальных кодеках формируется аппроксимирующее напряжение, сравниваемое с передаваемым сигналом. Эта процедура предсказания может быть фиксированной или адаптивной.

L - число отсчетов прямоугольного весового окна,

- шаг квантования.

Структурная схема квантователя с прямым управлением

Рис.1.3

Структурная схема квантователя с обратным управлением

Рис.1.4. Кодер адикм

На рис.1.5 представлена структурная схема кодера АДИКМ /2,3/.

После преобразования входного сигнала ИКМ из A - или ?-закона в стандартную ИКМ, получается сигнал различия, вычитанием оценки входного сигнала от самого входного сигнала. Адаптивный квантователь уровня используется для того, чтобы назначить пять, четыре, три или две двоичных цифры для передачи в дешифратор величины сигнала различия. Обратный квантователь производит квантование сигнала различия. Сигнальная оценка добавляется к этой квантованной разнице сигналов, для того чтобы можно было произвести восстановление входного сигнала. Как восстановленный сигнал так и квантованный разностный сигнал обрабатываются адаптивным предсказателем, который производит оценку входного сигнала, этим самым завершает цикл обратной связи.

На рис.1.5 представлена структурная схема кодера (для каждой описанной переменной, k - индекс дискретизации и отсчеты взяты с интервалами 125 мкс).

Входной сигнал s (k) преобразовывается из A-закона или m-закона ИКМ в сигнал sl (k) - стандартной ИКМ.

Вычисляется разница d (k) между сигналом sl (k) стандартной ИКМ и сигнальной оценкой se (k):

d (k) =?sl (k) ??se (k).

Используется неоднородный адаптивный квантователь для квантования разностного сигнала d (k), для того чтобы оперировать с 40, 32, 24 или 16 кбит/с. Перед квантованием d (k) преобразовывается в логарифмическое представление по основанию 2 и масштабируется при помощи y (k), которая вычисляется как коэффициент масштабирования блока адаптации. Для того чтобы закодировать уровень квантования, представляющий d (k) используется выбранное количество разрядов двоичных чисел. Один из которых предназначен для знака, а другие - для кодирования величины.

Обратный адаптивный квантователь получает квантованную версия dq (k) разностного сигнала масштабированием, с использованием y (k).

Квантователь коэффициента масштабирования адаптации вычисляет y (k) - коэффициент масштабирования для квантователя и обратного квантователя.

Основной принцип, использованный в масштабировании квантователя - это двухрежимная адаптация:

быстро для сигналов (например, речи), с большими колебаниями разницы между выходными сигналами;

медленно для сигналов (например, данные в полосе частот речи, тон), с небольшими колебаниями разницы между выходными сигналами.

Скорость адаптации управляется комбинацией коэффициентов масштабирования, характеризующих быстрые и медленные изменения сигнала.

Адаптивный предсказатель должен вычислить сигнальную оценку se (k) из квантованной сигнальной разницы dq (k).

Декодер АДИКМ

На рис.1.6 представлена структурная схема декодера АДИКМ /2,3/. Функции многих блоков декодера и кодера сходны. Т.о. функции обратного адаптивного квантователя, квантователя коэффициента масштабирования адаптации, адаптивного предсказателя и восстановителя сигнала описаны ранее при рассмотрении структуры кодера.

Сначала выполняется преобразование сигнала из A - или ?-закона sp (k) в стандартную ИКМ - сигнал stx (k) и затем обрабатывается разностный сигнал dx (k):

dx (k) =?slx (k) ??se (k).

Разностный сигнал dx (k) - затем сравнивается с квантованным АДИКМ сигналом и, выносится решение на интервале сигнала. Сигнал sd (k) (sd (k) - выходное кодовое слово ИКМ декодера) - затем определяется следующим образом:

s+p (k) - ИКМ кодовое слово, которое представляет наибольший положительный выходной уровень ИКМ (когда sp (k) представляет наибольший положительный выходной уровень - s+p (k): - ограничивается, и принимается за sp (k)),

s - p (k) - кодовое слово ИКМ, которое представляет наибольший отрицательный выходной уровень ИКМ (когда sp (k) представляет наибольший отрицательный выходной уровень - s-p (k): - ограничивается, и принимается за sp (k)).

Т.о. можно видеть, что многие функции кодера и декодера сходны, поэтому их рассмотрение производится не будет.

2. Анализ технического задания

2.1 Выбор метода сжатия речи

Рассмотрев основные методы сжатия речевых сигналов сделаем следующие выводы:

ИКМ является стандартом цифровой телефонии. Она позволяет передавать речь со скоростью 64 кбит/с. Остальные разновидности методов сжатия речевого сигнала используют импульсно - кодовую модуляцию в качестве исходной (стандарт G703).

Адаптивная дельта модуляция позволяет передавать речь со скоростью 32 кбит/с.

Адаптивная дифференциальная ИКМ дает скорости передачи 40, 32, 24 и 16 кбит/с (стандарт G726).

Все приведенные методы кодирования формы речевого сигнала уже достаточно хорошо изучены и не дают скорости передачи менее 16 кбит/с, но обеспечивают достаточно хорошее качество принимаемого сигнала. Поэтому для получения значительно меньших скоростей передачи требуется разработка принципиально новых методов и подходов к передачи речи. Причем эти методы должны учитывать структуру и особенности речевого сигнала.

Существуют и другие подходы к обработке и передаче речи, такие как, например, сжатие в частотной области, примером которого может служить: полосное кодирование, канальный вокодер, формантный вокодер. Скорость передачи речевого сигнала в вокодерах значительно ниже чем у рассмотренных ранее, но натуральность звучания меньше.

Представителем кодирования параметров сигнала - является метод линейного предсказания. Он позволяет получить скорости передачи вплоть до 2.4 кбит/с. Он стандартизован МККТТ (G 728 - 16 кбит/с, G 729 - 8 кбит/с), существует федеральный стандарт США на скорость передачи 6.8 кбит/с.

Из приведенных выше рассуждений можно сделать вывод:

кодирование формы сигнала обеспечивает хорошее качество, но высокую избыточность сигнала (высокую скорость передачи);

кодирование в частотной области (полосное кодирование, канальный вокодер, формантный вокодер) обеспечивает плохое качество передаваемой речи, но низкую скорость передачи;

кодирование параметров сигнала позволяет добиться хорошего качества при низкой скорости передачи данных. Следовательно, данный метод является наиболее приемлемым.

Перспективно также использование подхода, применяемого в линейном предикативном кодировании, и в других приложениях, таких как:

компьютерный ответ голосом (т.к. требуются гораздо меньшие объемы памяти для хранения информации);

системы идентификации и верификации голоса диктора;

передача сообщений по сети Internet.

Таким образом, в качестве метода, используемого для модуля сжатия речи, выберем метод кодирования параметров речевого сигнала с использованием линейного предсказания.

2.2 Механизм речеобразования

Звуки речи могут быть разделены на три четко выраженные группы по типу возбуждения /4/:

Вокализованные звуки образуются проталкиванием воздуха через голосовую щель, при котором периодически напрягаются и расслабляются голосовые связки и возникает квазипериодическая последовательность импульсов потока воздуха, возбуждающая голосовой тракт. К вокализованным звукам относятся все гласные и часть согласных звуков.

Невокализованные или фрикативные звуки генерируются при сужении голосового тракта в каком - либо месте (обычно в конце рта) и проталкивании воздуха через суженное место со скоростью, достаточно высокой для образования турбулентного воздушного потока. Таким образом, формируется источник широкополосного шума, возбуждающего голосовой тракт. К невокализованным звукам относят большую часть согласных звуков.

Взрывные звуки характеризуются полностью закрытым голосовым трактом (обычно в начале голосового тракта). Затем воздух внезапно высвобождается. Такое явление имеет место при произнесении звука [т].

Различные звуки образуются путем изменения формы голосового тракта. Таким образом, спектральные свойства речевого сигнала изменяются во времени в соответствии с изменением формы голосового тракта.

2.3 Кодирование речевых сигналов на основе линейного предсказания

Линейное предсказание является одним из наиболее эффективных методов анализа речевого сигнала. Этот метод становится доминирующим при оценке основных параметров речевого сигнала, таких, как, например, период основного тона, форманты, спектр, функция площади речевого тракта, а также при сокращенном представлении речи с целью ее низкоскоростной передачи и экономного хранения. Важность метода обусловлена высокой точностью получаемых оценок и относительной простотой вычислений /4/.

Основной принцип метода линейного предсказания состоит в том, что текущий отсчет речевого сигнала можно аппроксимировать линейной комбинацией предшествующих отсчетов. Коэффициенты предсказания при этом определяются однозначно минимизацией среднего квадрата разности между отсчетами речевого сигнала и их предсказанными значениями (на конечном интервале). Коэффициенты предсказания - это весовые коэффициенты, используемые в линейной комбинации.

Основные положения метода линейного предсказания хорошо согласуются с моделью речеобразования, т.к. речевой сигнал можно представить в виде сигнала на выходе линейной системы с переменными во времени параметрами, возбуждаемой квазипериодическими импульсами (в пределах вокализованного сегмента) или случайным шумом (на невокализованном сегменте). Метод линейного предсказания позволяет точно и надежно оценить параметры этой линейной системы с переменными коэффициентами /5/.

Методы вычисления коэффициентов предсказания:

ковариационный;

автокорреляционный;

лестничного фильтра;

обратной фильтрации;

оценки спектра;

максимального правдоподобия;

скалярного произведения.

Целесообразность использования линейного предсказания обусловлена высокой точностью описания речевого сигнала с помощью модели.

2.3.1 Методы анализа на основе линейного предсказания

Общий спектр, обусловленный излучением, речевым трактом и возбуждением, описывается с помощью линейной системы с переменными параметрами и передаточной функцией

. (2.1)

Эта система возбуждается импульсной последовательностью для вокализованных звуков речи и шумом для невокализованных. Таким образом, модель имеет следующие параметры:

классификатор вокализованных и невокализованных звуков;

период основного тона для вокализованных сегментов;

коэффициент усиления G;

коэффициенты {аk} цифрового фильтра.

Все эти параметры медленно изменяются во времени /3,4/.

Структурная схема модели анализа речи

Рис.2.1

Структурная схема модели речеобразования

Рис.2.2

Для вокализованных звуков хорошо подходит модель, содержащая только полюсы в своей передаточной функции (чисто полюсная), но для носовых и фрикативных звуков требуется учитывать и нули. Однако если порядок р модели достаточно велик, то полюсная модель позволяет получить достаточно точное описание почти для всех звуков речи. Главное достоинство этой модели заключается в том, что как параметр G, так и коэффициенты можно оценить непосредственно с использованием эффективных с вычислительной точки зрения алгоритмов.

Отсчет речевого сигнала s (n) связан с сигналом возбуждения u (n) простым разностным уравнением

. (2.2)

Линейный предсказатель с коэффициентами определяется как система, на выходе которой имеем

. (2.3)

Системная функция предсказателя р - го порядка представляет собой полином вида

. (2.4)

Погрешность предсказания определяется как

. (2.5)

Из уравнения (2.5) видно, что погрешность предсказания представляет собой сигнал на выходе системы с передаточной функцией

. (2.6)

Сравнение уравнений (2.2) и (2.3) показывает, что если сигнал точно удовлетворяет модели (2.2) и , то e (n) =Gu (n). Таким образом, фильтр погрешности предсказания A (z) является обратным фильтром для системы H (z), соответствующей уравнению (2.1), т.е.

. (2.7)

Основная задача анализа на основе линейного предсказания заключается в непосредственном определении параметров {ak} по речевому сигналу с целью получения хороших оценок его спектральных свойств путем использования уравнения (2.7). Вследствие изменения свойств речевого сигнала во времени коэффициенты предсказания должны оцениваться на коротких сегментах речи. Основным подходом является определение параметров предсказания таким образом, чтобы минимизировать дисперсию погрешности на коротком сегменте сигнала. При этом предполагается, что полученные параметры являются параметрами системной функции H (z) в модели речеобразования.

Такой подход приводит к следующим результатам:

Пусть , тогда e (n) =Gu (n). Для вокализованной речи это означает, что е (n) будет состоять из последовательности импульсов, т.е. е (n) будет весьма мало почти все время. Поэтому в данном случае минимизация погрешности предсказания позволит получить требуемые коэффициенты.

Даже если сигнал формируется системой (2.2) с постоянными во времени параметрами, которая возбуждается либо единичным импульсом либо белым шумом, то можно показать, что коэффициенты предсказания, найденные по критерию минимизации среднеквадратического значения погрешности (в каждый момент времени), совпадают с коэффициентами в уравнении (2.2).

Подобная минимизация приводит к линейной системе уравнений, решение которых приводит к получению параметров предсказания.

Кратковременная энергия погрешности предсказания:

, (2.8)

где sn (m) - сегмент речевого сигнала, выбранный в окрестности отсчета n, т.е.

, (2.9)

Пределы суммирования в (2.8) предполагаются конечными, поскольку

используется подход кратковременного анализа. Кроме того, для получения среднего значения необходимо разделить полученный результат на длину речевого сегмента.

2.3.2 Выбор метода вычисления коэффициентов предсказания

Сравнение методов вычисления коэффициентов предсказания показало, что наиболее приемлемым является автокорреляционный метод /4/.

Автокорреляционный метод требует меньше вычислений, чем остальные методы.

Корни уравнений автокорреляционного метода лежат внутри единичной окружности, т.е. устойчивость H (z) гарантирована.

С точки зрения выбора окна анализа для сегмента речи и порядка предсказателя р - все методы эквивалентны. Так как выбор р определяется частотой дискретизации и не зависит от используемого метода. А размер окна непосредственно влияет на количество вычислений и качество системы.

2.3.3 Автокорреляционный метод

Одним из способов определения пределов в (2.8) основан на предположении, что сигнал равен нулю вне интервала /4/. Это удобно записать в виде

, (2.10)

где w (m) - окно конечной длительности, равное нулю вне интервала.

Если sn (m) отличен от нуля только на интервале , то соответствующая погрешность предсказания еn (m) для предсказателя порядка р

будет отлична от нуля на интервале . В этом случае Еn имеет вид

. (2.11)

Заметим, что погрешность предсказания будет большой в начале интервала (т.е. ), поскольку мы пытаемся предсказать сигнал по отсчетам, которые приравняли нулю. Погрешность будет большой и в конце интервала (т.е. ), поскольку здесь мы предсказываем нулевые значения по ненулевым. Поэтому в качестве окна w (m) в уравнении (2.10) используется окно, которое стремится к нулю на концах интервала.

Для вычисления коэффициентов предсказания необходимо решить систему линейных уравнений

, . (2.12)

Минимальный средний квадрат погрешности предсказания

. (2.13)

Систему уравнений (2.12) можно записать в матричной форме. Матрица размером рxр является теплицевой, т.е. симметричной и такой, что элементы на любой диагонали равны между собой.

2.3.4 Вычисление коэффициента усиления модели

Коэффициент усиления G можно определить путем согласования энергии сигнала и линейно - предсказанных отсчетов /4/.

Сигнал возбуждения можно представить в виде

,

при этом погрешность предсказания будет представлена в виде

.

В случае, когда , т.е. коэффициенты предсказания совпадают с коэффициентами модели,

,

т.е. входной сигнал модели пропорционален погрешности предсказания с коэффициентом пропорциональности G

,

причем это справедливо как для случая импульсного возбуждения, так и для возбуждения шумом.

Схема модели речеобразования на основе рекурсивного цифрового фильтра показана на рис.2.3, где обозначение Т символизирует задержку на один период дискретизации. В образовании отсчета в k - й момент участвует ряд предшествующих отсчетов x (k-1), …, x (k-p), которые к этому времени уже известны /6,7/.

Схема модели речеобразования на основе рекурсивного цифрового фильтра

Рис.2.3

3. Выбор и обоснование структурной схемы модуля сжатия речевых сигналов

Данный модуль сжатия речевых сигналов выполняет функции “голосовой почты" и должен обеспечивать возможность записи сообщения в память устройства, прослушивания сообщения из памяти устройства, удаления из памяти не интересующих сообщений, удаления из памяти всех сообщений.

В соответствии с алгоритмом обработки РС модулем сжатия необходимо привести параметры, являющиеся результатом работы модуля. За время анализа интервала одного речевого сегмента вырабатывается комбинация символов:

10 шестнадцати битных слов (10 коэффициентов предсказания);

1 шестнадцати битное слово (период основного тона и коэффициент усиления). Период основного тона Т равен восьми битам. Коэффициент усиления интервала анализа речи G составляет восемь бит.

Длительность одного бита параметров кодирования речевого сигнала составляет 125мкс (для всех символов). Т.о. общее число бит за один цикл составляет 176 (при fд=8кГц, Т=125мкс). Интервал времени, за который производится выборка речевого сигнала равен 22,5 мс (при fд=64кГц, Т=15,625мкс). На рис.3.1 приведена комбинация символов на выходе модуля сжатия РС.

Формат представления параметров речевого сигнала

Рис.3.1

Т.о. необходимо записать в ОЗУ данных вычисленные параметры речевого сигнала. Для прослушивания информации ее нужно будет извлечь из ОЗУ данных и, согласно принятому алгоритму кодирования, синтезировать речь.

Для обеспечения необходимого времени записи сообщения общая емкость ОЗУ данных должна составлять 3,5Мбайт.

,

где Nобщ - емкость ОЗУ данных, Nсегм - количество бит, приходящихся на один интервал анализа речевого сегмента, Тсегм - длительность интервала анализа речевого сегмента.

С учетом, что Nобщ = 3,5Мбайт, Nсегм =176 бит, Тсегм =22,5 мс., получим

.

Т.к. согласно алгоритму кодирования речевой сигнал длительностью 22,5мс можно закодировать 176 - ю битами, то это позволит записать в ОЗУ данных 3753с (62,5 мин) речевого сообщения.

Из расчета, что минимальное сообщение составляет 15с, можно вычислить максимальное количество сообщений, которое можно записать

,

где tmin - минимальное время длительности сообщения, равное 15с.

Т.о. kmax=250 сообщений.

Необходимо ввести ограничение на максимальную длительность сообщения. Примем tmах. = 2мин. (где tmах. - максимальная длительность сообщения).

Исходя из выполняемых данным устройством функций, определим основные элементы модуля сжатия речевых сигналов и составим его структурную схему (рис.3.2).

Структурная схема модуля сжатия речевых сигналов

Рис.3.2

Основными элементами модуля сжатия речевых сигналов являются:

микропроцессор, выполняющий функцию вычислителя и основного управляющего элемента в системе;

ОЗУ программ (используется для хранения программы управляющей работой модуля сжатия речевых сигналов);

ОЗУ данных (используется для хранения параметров речевого сигнала, используемых для синтеза речевого сигнала);

узел выработки управляющих сигналов переключения микросхем памяти;

буферные элементы (позволяют увеличить нагрузочную способность выходов микропроцессора);

устройство контроля напряжения питания.

Входными параметрами данной системы являются:

XCLK - сигнал внешней синхронизации устройства;

SP - строб - сигнал;

TX - ИКМ канал передачи данных;

RX - ИКМ канал приема данных;

Ucc - напряжение питания.

Шина исходных сигналов управления (ИСУ) задает входные параметры для узла выработки управляющих сигналов. ИСУ представляет собой:

SP - строб - сигнал;

CS - сигнал выборки нужной микросхемы памяти;

CLK - сигнал тактовой синхронизации;

WR - сигнал записи;

RD - сигнал чтения;

A19 - A21 - адреса микросхем памяти.

Шина управляющих сигналов (УС) позволяет коммутировать микросхемы памяти ОЗУ данных (LCS0 - LCS6).

К буферным элементам подводится шина адреса (ША) (А0 - А18) и шина данных (ШД) (D0 - D7). На выходе буферных элементов эти шины имеют обозначения БША и БШД, соответственно.

Шина программ (ШП) позволяет загрузить в память процессора программу управления его работой из ОЗУ программ, которое загружается через последовательный порт RS 232.

Устройство контроля Ucc контролирует работу микропроцессорной системы сигналом и управляется извне сигналом ST.

Разработанная в данном разделе схема структурная электрическая приведена на плакате ЦТРК 2014.095649. Э1-00.

4. Выбор и обоснование принципиальной схемы модуля сжатия речевых сигналов

В качестве устройства обработки речевого сигнала используется микропроцессор ADSP 2181, т.к. его применение позволит решить все задачи по обработке речевого сигнала, т.е. его сжатие, синтез, выработка сигналов управления ОЗУ.

ADSP 2181 представляет собой однокристальный микрокомпьютер, оптимизированный для цифровой обработки сигналов, а также других высокоскоростных вычислительных операций. Подробное описание сигнального процессора в /8,9/. Процессор ADSP 2181 - один из самых мощных в этой серии, имеет 80Кбайт быстродействующего ОЗУ на кристалле, таймер, а также несколько последовательных и параллельных портов. Процессор состоит из двух частей: процессорного блока и блока периферийных устройств.

Процессорный блок - единый для всей серии ADSP 21XX - содержит 3 вычислительных устройства: АЛУ, умножитель-сумматор и устройство сдвига; устройство управления и 2 генератора адреса /10/. Каждое из вычислительных устройств имеет свой набор входных регистров и один или два аккумулятора для результатов. Взаимодействие всех процессорных устройств между собой осуществляется с помощью 5-ти шин. Названия шин, разрядность и обозначения приведены в табл.4.1.

Таблица 4.1

Название шины

Обозначение

Разрядность, бит

шина данных памяти программ

PMD

24

шина адреса памяти программ

PMA

14

шина данных памяти данных

DMD

16

шина адреса памяти данных

DMA

14

шина результатов

R

16

Периферийные устройства - два банка быстродействующей памяти по 16К слов каждый, 2 синхронных последовательных порта (SPORT0 и SPORT1), таймер, порты прямого доступа к памяти (IDMA и BDMA), контроллер прерываний, логика управления внешней шиной. Внутренние шины процессора коммутируются в одну 14-ти разрядную внешнюю шину адреса и одну 24-х разрядную шину данных. Тип памяти, к которой обращается процессор по внешней шине, определяется сигналами выбора памяти, типы памяти приведены в табл.4.2.

Таблица 4.2

PMS

память программ

DMS

память данных

BMS

байтовая память (обращения контроллера BDMA)

IOMS

область ввода/вывода

Внешн. шина адреса

Внешн. шина данных

Таймер

Контроллер прерываний

IDMA

Контроллер

PMA

DMA

PMD

DMD

Флаги

Power Down Контроллер

BDMA

Контроллер

Внешн. шина адреса

Внешн. шина данных

Таймер

Контроллер прерываний

IDMA

Контроллер

PMA

DMA

PMD

DMD

Флаги

Power Down Контроллер

BDMA

Контроллер

Архитектура процессора ADSP2181 имеет высокую степень параллелеризма, отвечающую требованиям цифровой обработки сигналов. За один командный цикл процессор может выполнить следующие действия:

cгенерировать адрес новой команды;

осуществить выборку и дешифрацию следующей команды;

выполнить одно или два обращения к памяти;

обновить один или два указателя адреса данных;

выполнить вычисления;

передавать данные через последовательные порты;

передавать данные по DMA портам.

Базовая архитектура процессора приведена на рис 4.1.

Вычислительные устройства непосредственно работают с 16 - битными данными и имеют аппаратную поддержку для работы с числами повышенной точности.

АЛУ выполняет стандартный набор арифметических и логических операций, а также примитивы деления. МАС выполняет умножение за один цикл, а также операции умножения/вычитания. Устройство циклического сдвига производит арифметические и логические операции. В нем реализованы операции над числами в разных форматах, в том числе и надо числами с плавающей точкой, занимающих более одного слова. Вычислительные устройства организованны "бок о бок", а не последовательно, что позволяет результату работы любого устройства быть операндами любого другого устройства в следующем цикле. Шина внутренних результатов (R) прямо соединяет вычислительные устройства с этой целью.

Все три вычислительных устройства содержат входные и выходные регистры, которые доступны через внутреннюю шину (DMD). Вычислительные устройства обычно берут операнды из входных регистров и помещают результат в выходной регистр. Эти регистры обеспечивают буферизацию между вычислительными устройствами и памятью. Шина внутренних результатов позволяет использовать результат предыдущего вычисления, используя непосредственно как операнд другой операции. Это исключает задержки в случае выполнения серий различных операций.

Два выделенных генератора адресов данных DAG и многофункциональный счетчик команд обеспечивают эффективное использование вычислительных устройств. Генераторы адресов данных обеспечивают адреса памяти данных, когда данные пересылаются из выходных или во входные регистры. Каждый из двух генераторов запоминает до 4 адресных указателей. Когда указатель используется для косвенной адресации, он может автоматически модифицироваться значением в заданном регистре после исполнения инструкции. Имея 2 генератора адресов, процессор может генерировать 2 адреса за один цикл, что обеспечивает исполнение двухадресных инструкций.

Программированный интервальный таймер, обеспечивающий периодическую генерацию прерываний.8-битный масштаб позволяет ему декрементировать содержимое 16-битного регистра-счетчика в диапазоне от каждого цикла до 256-го цикла процессора. Прерывание генерируется, когда регистр-счетчик обнуляется. Регистр-счетчик автоматически загружается из 16-битного регистра интервала и отсчет времени немедленно возобновляется.

Данный процессор имеет два двунаправленных последовательных порта (SPORT) с двойной буферизацией. Эти порты используют синхронную передачу данных и используют кадровые сигналы, чтобы контролировать поток данных. Каждый порт может тактироваться от внутреннего таймера или от внешней частоты. Сигналы кадровой синхронизации могут меняться от 3 бит до 16. ADSP подключается к внешними устройствам через SPORT, рассмотрим его подробно.

Последовательные порты. Для сопряжения с аппаратными средствами существует синхронные последовательные порты, или SPORT. SPORT поддерживает много последовательных протоколов обмена данными и могут обеспечить прямое соединение процессоров в многопроцессорной системе. В нашем случае для соединения ADSP с системной шиной и устройством управления. Каждый SPORT имеет пять интерфейсных линий:

SCLK Синхроимпульсы;

RFS Синхроимпульсы;

TFS Синхронизация приема кадра;

DT Передача данных;

DR Прием данных.

SPORT получает данные через вход DR и посылает данные через вход DT. Для полнодуплексной работы он может одновременно посылать и принимать данные. Биты данных синхронизируются с синхроимпульсами SCLK. Линия SCLK является выходом, если процессор генерирует синхроимпульсы, и входом, если синхроимпульсы приходят извне. Сигналы синхронизации кадров RFS и TFS используются для индикации начала передачи слова или потока слов.

Рис 4.2 показывает упрощенную блок-схему одного SPORT. Данные, подлежащие передаче, записываются из внутреннего регистра процессора в регистр RХ находящийся в SPORT, по шине DMD. Эти данные могут быть аппаратно упакованы, затем автоматически передаются в регистр сдвиговой передачи, биты из которого последовательно сдвигаются так, что они попадают на сигнал DT (синхронно с сигналом SCLK), начиная с младших бит. Приемная секция SPORT принимает данные с DR, синхронно с сигналом SCLK. Когда получено целое слово, данные могут быть автоматически распакованы, затем оно автоматически копируется в регистр RX, находящийся в SPORT, где эти данные доступны для процессора.

Блок схема последовательного порта

Рис.4.2

Рассмотрим возможности SPORT.

Каждый SPORT имеет независимые секции приема и передачи (является двунаправленным).

Каждая секция SPORT (и приемная, и передающая) имеет регистр данных для передачи слов данных в процессор, из процессора и регистр для сдвига посылаемых данных, получаемых данных (то есть имеет двойную буферизацию, что обеспечивает дополнительное время для обработки данных процессором).

Каждый SPORT может использовать внешние синхроимпульсы c частотой от 0 Гц до 12.5 МГц или генерировать свои в широком диапазоне частот (до 1/2 частоты процессора).

Каждый SPORT поддерживает длины последовательного слова от 3 до 16 бит.

Каждая секция SPORT (и приемная, и передающая) может работать:

как с, так и без сигналов синхронизации кадра для прима/передачи каждого слова;

с внутренними или внешними кадровыми сигналами;

с активным высоким или активным низким кадровыми сигналами;

с нормальным или альтернативным режимом кадровой синхронизации.

Каждый SPORT поддерживает аппаратное сжатие по А-закону или в соответствии с рекомендацией CCITT G.711.

Автобуферизация с одним циклом задержки. С использованием DAG, SPORT может автоматически принять и/или передать целый кольцевой буфер, с затратой лишь одного цикла на переданное/полненное слово данных. Передачи данных между SPORT и кольцевым буфером происходят автоматически в этом режиме и не требуют дополнительного программирования.

Прерывания: каждая секция SPORT (и приемная, и передающая) генерирует прерывание по завершению передачи/приема слова данных или целого буфера данных, если, используется режим автобуферизации.

Многоканальные возможности: SPORTO может получать и передавать данные выборочно по каналам последовательного потока бит, мультиплексированного на 24 или 32 канала. В данном случае мы получаем возможность одновременного обслуживания до 24 или 32 каналов.

Альтернативная конфигурация: SPORT1 может быть сконфигурирован как два внешних запроса на прерывание, IRQ0 и IRQ1, а также как два сигнала Flag In и Flag Out, вместо последовательного порта.

Запись в регистр TX переводит SPORT в состояние готовности к передаче; сигнал TFS инициализирует передачу данных. Как только передача началась, каждое значение, записанное в регистр TX, передается во внутренний регистр передачи сдвигом, и биты данных последовательно посылаются, начиная с самого младшего. Каждый бит посылается по фронту сигнала SCLK. Как только младший бит слова послан, SPORT генерирует прерывание передачи. Регистр ТХ снова доступен для записи данных, хотя передача предыдущего слова только началась. В приемной секции, биты собираются по мере их прихода. Как только полное слово данных принято, SPORT записывает его в регистр RX и генерирует прерывание приема данных.

Управление конфигурацией SPORT осуществляется установкой битов в конфигурационных регистрах. Конфигурационные регистры SPORT0 размещаются по адресам 0x3FF3-3FFA. Каждый SPORТ имеет регистры приема и передачи. Эти регистры недоступны по адресу памяти, зато они имеют ассемблерные мнемоники. Регистры для передачи данных называются TX0 и RX0 для SPORT0. SPORT0 должен быть сконфигурирован под ИКМ-32 с потоком 2048 Мбит/с.

Применение в качестве ОЗУ данных ИС HY584000 фирмы Samsung позволяет обеспечить многократное считывание информации без ее разрушения. Особенностью данной микросхемы является перезапись информации при подаче на вход элемента напряжения низкого уровня. Это более удобно, так как обрыв вывода не создает на входе ИС напряжение активного уровня, что повышает надежность его работы.

Данная ИС позволяет производить чтение - запись информации по одним и тем же выводам, что важно с точки зрения упрощения ИС.

Выход ИС имеет три выходных состояния, т.е. информация подключается к выходным выводам только при выборе ИС.

Приведем временные диаграммы управляющих сигналов, соответствующих процессу чтения из памяти (рис.4.3).

Диаграммы управляющих сигналов чтения из памяти

Рис.4.3

В табл.4.3 приведены некоторые параметры управляющих сигналов чтения из памяти

Таблица 4.3
Параметры сигналов чтения из памяти

t ACC

Задержка выходного сигнала относительно адреса

t

Задержка выходного сигнала относительно

t ОЕ

Задержка выходного сигнала относительно

t DF

Неопределенное состояние выходного сигнала относительно или

t OH

Поддержка выходного сигнала в активном состоянии относительно , или адреса (относительно первого из них)

Приведем временные диаграммы управляющих сигналов, соответствующих процессу записи в память (рис.4.4).

Диаграммы управляющих сигналов записи в память

Рис.4.4

В табл.4.4 приведены некоторые параметры управляющих сигналов при записи в память

Таблица 4.4
Параметры сигналов записи в памяти

t AS, t OES

Время установления адреса,

t АН

Время удержания адреса

t CS

Время установления Chip Select (выбор кристалла)

t CH

Время удержания Chip Select (выбор кристалла)

t WP

Длина записи ( или )

t DS

Время установления данных

t DH, t OEH

Время удержания данных,

Рассчитаем количество микросхем памяти, необходимых для реализации ОЗУ данных необходимого объема

,

где n - количество микросхем памяти, С - емкость одной микросхемы, Nобщ - общая емкость ОЗУ данных. Т.к. Nобщ =3,5Мбайт, С = 512 кбайт, то получим следующее значение .

Т.о., применив семь ИС 548000, получим требуемый размер памяти для обеспечения необходимого времени записи сообщений.

Роль ОЗУ программ выполняет FLASH память AM29F040, управляющие сигналы которой выставляются аналогично статической ОЗУ, описанной выше. Применение данной микросхемы обуславливается их быстродействием, которое выше чем у ADSP 2181, разрядностью шин адресов и данных и своими функционально - стоимостными характеристиками.


Подобные документы

Работы в архивах красиво оформлены согласно требованиям ВУЗов и содержат рисунки, диаграммы, формулы и т.д.
PPT, PPTX и PDF-файлы представлены только в архивах.
Рекомендуем скачать работу.