Кодеры речи

Кодеры формы, полосный вокодер. Кодирование с линейным предсказанием. Кодирование речи методом анализа через синтез. Векторное квантование и кодовые книги. Гибридные кодеры. Гибридные кодеры с частотным разбиением. Гибридные кодеры с временным разбиением.

Рубрика Программирование, компьютеры и кибернетика
Вид реферат
Язык русский
Дата добавления 10.12.2008
Размер файла 941,7 K

Отправить свою хорошую работу в базу знаний просто. Используйте форму, расположенную ниже

Студенты, аспиранты, молодые ученые, использующие базу знаний в своей учебе и работе, будут вам очень благодарны.

В зависимости от способа описания сигнала x(h), поступающего на вход фильтра (3.9), можно выделить алгоритмы кодирования:

с возбуждением прореженной последовательности импульсов -- MPLP (Multi Pulses Linear Prediction);

с самовозбуждением -- SELP (Self Excited Linear Prediction);

с кодовым возбуждением -- CELP

Экспериментально установлено, что кодовое возбуждение обеспечивает наиболее высокое качество кодирования речевого сигнала, в том числе и при наличии входных акустических помех.

CELP наиболее эффективно применяется при передаче речевого сиг-ала в диапазоне скоростей от 4 до 6 кбит/с.

По существу, в алгоритме CELP производится векторное квантование последовательности , т.е. позиции выборок и их амплитуды в сигнале многоимпульсного возбуждения оптимизируются одновременно. При том отрезок (сегмент) сигнала возбу-ждения выбирается из предварительно формированной постоянной совокупности - кодовой книги, содержащей достаточно большое количество реализаций, например, некоррелированного гауссовского шума. Выбранная реализация усиливается и подается на вход цепочки фильтров (3.9) и (3.8).

Поиск оптимальных значений и Т синтезатора основного тона, коэф-фициента усиления и номера элемента кодовой книги осуществляется посредством «анализа через синтез». В канал связи передаются номер (индекс) элемента кодовой книги с соответству-ющим коэффициентом усиления, параметры синтезатора основного тона, а также коэффициенты линейного предсказания, характеризующие состояние голосового тракта.

Являясь одной из самых распро-страненных, схема с линейным пред-сказанием и возбуждением от кода CELP является лучшей схемой AbS-LPC для низких скоростей. В CELP имеется линейный фильтр с изменяю-щимися во времени параметрами для выделения грубой и точной спектраль-ной информации. Возбуждение выпол-няется путем перебора всех векто-ров из возбуждающей кодовой кни-ги. Векторная последовательность, обеспечивающая минимальную взве-шенную ошибку, считается оптималь-ным возбуждением. Процедура AbS в CELP требует больших вычислитель-ных ресурсов, а основная кодовая кни-га является результатом очень боль-шой исследовательской работы. Хо-тя CELP является сложным методом, он способен синтезировать речь с высо-ким качеством даже на низких скоро-стях. Вариант кодирования CELP вы-бран для многих систем голосовой свя-зи.

Хотя CELP, главным образом, ориентирован на низкие скорости, на нем базируются многие стандарты. Испытания показывают его приемле-мость и для высоких скоростей. Стан-дарт для скорости 16 кбит/с с ма-лой задержкой (LD-CELP -- Low-Delay CELP) будет рассмотрен ниже.

Рекомендации G.723.1 и G.729

Рекомендация G.723.1 определяет кодовое представление, которое может использоваться на очень низких скоро-стях для компрессии речевых или дру-гих аудиосигналов в средствах муль-тимедиа. В кодере, реализующем ре-комендации G.723.1, принципиальным приложением является низкоскорост-ная видеотелефония как часть общего семейства стандартов Н.324.

Кодер обеспечивает работу на двух скоростях -- 5,3 и 6,3 кбит/с. Более высокая скорость обеспечивает лучшее качество. Тем не менее, и бо-лее низкая скорость обеспечивает хо-рошее качество и предоставляет разра-ботчикам систем связи дополнитель-ные возможности. И кодер и декодер должны обязательно поддерживать обе скорости. Существует возможность пе-реключения скоростей. Возможно так-же изменение рабочей скорости с ис-пользованием прерывистой передачи и заполнение шумом пауз.

Кодер G.723.1 оптимизирован для сжатия речи с высоким качеством на установленной скорости при ограни-ченной полосе. Музыка и другие ау-диосигналы также могут быть под-вергнуты компрессии с использовани-ем этого кодера, однако, не с таким же высоким качеством, как речь.

Кодер G .723.1 преобразует речь или другие аудиосигналы во фрей-мы длительностью 30 мс. Кроме то-го, существует возможность просмотра фреймов на скорости 7,5 мс, что приво-дит к общей алгоритмической задерж-ке 37,5 мс. Дополнительные задержки возникают из-за:

времени, затрачиваемого на обра-ботку данных в кодере и декодере;

времени передачи по линии связи;

дополнительной буферной задержки протокола мультиплексирования.

Кодер G.723.1 предназначен для работы с цифровыми сигналами после предварительной фильтрации полосы аналогового телефонного канала (рекомендации G.712), дискретизации с частотой 8 кГц и преобразования в 16-битную линейную ИКМ последовательность для передачи на вход кодера. Выходной сигнал декодера преобразуется обратно в аналоговый сигнал аналогичным образом. Другие характеристики входа/выхода такие же, как и определенные рекомендациями G.711 для 64-битной ИКМ. Перед кодированием данные должны быть преобразованы в 16-битную ИКМ последовательность или в соответствующий формат после декодирования из 16-битной ИКМ.

Кодер, основанный на принципах кодирования методом «анализ через синтез» с линейным предсказанием, минимизирует взвешенный сигнал ошибки, работает с блоками (фреймами) по 240 выборок каждый, что в частоте дискретизации 8 кГц эквивалентно длительности 30 мс. Каждый фрейм проходит через фильтр верхних частот для удаления постоянной составляющей, а затем разделяется на четыре субфрейма по 60 выборок в каждом. Для каждого субфрейма используется фильтр десятого порядка кодера с линейным предсказанием. Для последнего субфрейма коэффициенты LPC-фильтра квантуются с использованием прогнозирующего квантизатора вектора разбиения (PSVQ). Квантованные LPC-коэффициенты используются для создания кратковременного взвешивающего фильтра, который применяется для фильтрации всего фрейма и для получения взве-шенной оценки речевого сигнала. На основе этой оценки для каждых двух субфреймов (120 выборок) вычисляется период основного тона . Оценка тона представляется блоками по 120 выборок. Период основного тона лежит в диапазоне от 18 до 142 выборок.

С помощью вычисленной заранее оценки периода тона создается фильтр формы гармонического шума. Комбинация из фильтра синтеза LPC, филь-тра взвешивания формант, фильтра формы гармонического шума используется для синтеза импульсной харак-теристики, необходимой для дальнейших вычислений.

Оценки периода основного тона и импульсного отклика используются при работе предсказателя тона пятого порядка. Период тона вычи-сляется как приращение относительной оценки периода основного тона. На декодер передаются тоновый период и разностные величины. На следующем этапе аппроксимируются непериодиче-ские составляющие возбуждения. Для высокой скорости используется много-импульсное возбуждение с квантовани-ем и алгоритмом максимального прав-доподобия (MP-MLQ), а для низких скоростей - алгебраическое кодовое возбуждение.

Рекомендации ITU-T G.729 со-держат описание алгоритма кодирова-ния речевых сигналов на скорости 8 кбит/с с использованием алгебраиче-ского линейного предсказания с ко-довым возбуждением с сопряженной структурой (CS-ACELP).

Подобный кодер создан для ра-боты с цифровыми сигналами, полу-ченными после предварительной об-работки аналогового входного сигна-ла фильтром низкой частоты, дискре-тизации с частотой 8 кГц и даль-нейшем преобразованием в линейную ИКМ для подачи на вход кодера. Вы-ходной сигнал декодера конвертирует-ся обратно в аналоговый сигнал по-добным же образом. Другие харак-теристики входа/выхода определяют-ся аналогично рекомендациями G.711 для ИКМ последовательностей со ско-ростью 64 кбит/с. После декодирова-ния данные должны быть преобразо-ваны из 16-битовой линейной ИКМ в требуемый формат.

Кодер CS-ACELP основан на моде-ли с линейным предсказанием с кодо-вым возбуждением (CELP) и работает с фреймами речи по 10 мс, соответству-ющих 80 выборкам. Каждый фрейм речевого сигнала длительностью 10 мс анализируется для выделения пара-метров CELP-модели (коэффициенты фильтра линейного предсказания, ин-дексы адаптивной и фиксированной кодовых книг и коэффициенты усиле-ния). Эти параметры кодируются и пе-редаются на приемную сторону. Рас-пределение бит параметров кодера по-казано в табл. 3.1.

Таблица 3.1

Распределение бит для алгоритма CS-ACELP на скорости 8 кбит/с (фреймы по 10 мс)

Параметр

Кодовое слово

Субфрейм 1

Субфрейм 2

В целом на фрейм

Пары линейного спектра

LU, L1, L2, L3

Задержка адаптивной кодовой книги

P1, Р2

8

5

13

Проверка задержки тона

Р0

1

1

Индекс фиксированной кодовой книги

CT, С2

13

13

26

Запись фиксированной кодовой книги

S1, S2

4

4

8

Усиления кодовой книги (этап 1)

GA1, GA2

3

3

6

Усиления кодовой книги (этап 2)

GBl, GB2

4

4

8

Всего

80

На стороне деко-дера эти параметры используются для восстановления параметров возбужде-ния и фильтра синтеза. Как показа-но на рис. 3.3, речь восстанавливает-ся при фильтрации этого возбуждения фильтром кратковременного синтеза, который основан на фильтре линей-ного предсказания десятого порядка. Долговременный фильтр (или фильтр синтеза тона) выполняется с использо-ванием адаптивной кодовой книги. По-сле синтеза речи происходит дополни-тельное сглаживание в постфильтре.

Входной сигнал посту-пает на фильтр высоких частот и мас-штабируется в блоке предварительной обработки, после чего подвергается по-следующему анализу. Анализ с линей-ным предсказанием (LP-анализ) вы-полняется один раз для фрейма дли-тельностью 10 мс с целью вычисле-ния коэффициентов фильтра линейно-го предсказания, которые затем пре-образуются в пары линейного спектра (Line Spectrum Pairs, LSP) и квантуют-ся (18 бит) с использованием двухэтапного векторного квантования с предсказанием.

Сигнал возбуждения выбирается с использованием поисковой процедуры «анализ через синтез», при которой ошибка между исходной и восстанавливаемой речью минимизируется в соответствии с измерением взвешенных искажений. Это выполняется путем фильтрации сигнала ошибки фильтром взвешивания, коэффициенты которого извлечены из неквантованного LP-фильтра.

Параметры возбуждения (параметры фиксированной и адаптивной кодовых книг) определены для субфрейма длительностью 5 мс (40 выборок). Коэффициенты квантованного и неквантованного фильтра с линейным предсказанием используются для второго субфрейма, в то время как в первом субфрейме используются интерполированные коэффициенты LP-фильтра.

Задержка основного тона оцени-вается один раз для фрейма длиной 10 мс на основе взвешенного речево-го сигнала. Затем для каждого суб-фрейма повторяются следующие опе-рации. Искомый сигнал вычисля-ется при фильтрации остаточного ли-нейного предсказания во взвешиваю-щем фильтре синтеза . При фильтрации ошибки начальные состо-яния этих фильтров обновляются. Это эквивалентно результату выделения нулевого входного отклика взвешива-ющего фильтра синтеза из взвешенно-го речевого сигнала. Вычисляется им-пульсная характеристика взвеши-вающего фильтра синтеза, после че-го выполняется анализ тона для нахо-ждения задержки адаптивной кодовой книги путем анализа значения задерж-ки вблизи основного тона с использова-нием искомого сигнала и импульс-ной характеристики . Задержка тона кодируется восемью битами в пер-вом субфрейме и пятью битами во вто-ром субфрейме. Искомый сигнал используется при поиске фиксирован-ной кодовой книги для нахождения оптимального возбуждения. Семна-дцатибитовая алгебраическая кодовая книга используется для возбуждения фиксированной кодовой книги. Коэф-фициенты усиления вкладов адаптив-ной и фиксированной кодовых книг -- это векторы, квантованные семью би-тами.

Индексы параметров кодовых книг вы-деляются из принятого потока бит и декодируются для получения следую-щих параметров кодера, соответствую-щих речевому фрейму длиной 10 мс: LP-коэффициенты (коэффициенты ли-нейного предсказания), две частичные задержки тона, два вектора фиксиро-ванной кодовой книги и два набора ко-эффициентов адаптивной и фиксиро-ванной кодовых книг. Коэффициенты LSP интерполируются и преобразуют-ся в коэффициенты LP-фильтра для каждого субфрейма. Для каждого суб-фрейма выполняются следующие ша-ги:

восстанавливается возбуждение путем добавления векторов адаптив-ной и фиксированной кодовых книг с соответствующими им коэффициента-ми усиления;

восстанавливается речь путем пропускания через фильтр LP-синтеза;

восстанавливаемый речевой сиг-нал пропускается через ступень пост-обработки, которая включает адаптив-ный постфильтр, состоящий из долго-временного и кратковременного пост-фильтров синтеза, фильтр высоких ча-стот и операцию масштабирования.

Кодер кодирует речь и другие ау-диосигналы по фреймам длительно-стью 10 мс. В результате осуществля-ется задержка 5 мс, что приводит в ре-зультате к общей алгоритмической за-держке 15 мс. Все дополнительные за-держки при практическом исполнении такого кодера обусловлены следующи-ми причинами:

временем обработки, необходимым для операции кодирования и декодиро-вания;

временем передачи по линиям свя-зи;

задержкой мультиплексирования, когда аудиоданные объединяются с другими данными.

Таким образом, рекомендация G.729 предусматривает фреймы возбу-ждения по 5 мс и формирует четыре импульса. Фрейм из 40 выборок разде-ляется на четыре части. Первые три имеют восемь возможных позиций для импульсов, четвертая -- шестнадцать. Из каждой части выбирается по одно-му импульсу. В результате образуется четырехимпульсный ACELP возбужде-ния кодовой страницы (табл. 3.2).

Таблица 3.2

Параметры кодеров

Параметры кодера

Кодер

G.729

G.729A

G.723.1

Скорость бит, кбит/с

8

8

5,3…6,3

Размер фрейма, мс

10

10

30

Размер подфрейма, мс

5

5

7,5

Алгебраическая задержка, мс

15

15

37,5

Быстродействие, млн. оп./с

20

10

14…20

Объем ПЗУ, байт

5,2 К

4 К

4,4 К

Качество

Хорошее

Хорошее

Хорошее

Для режима 5,3 кбит/с рекомен-дация G.723.1 предусматривает фрей-мы возбуждения длительностью 7,5 мс и также использует четырехимпульсное ACELP-возбуждение кодовой стра-ницы. Для скорости 6,3 кбит/с ис-пользуется технология многоимпульс-ного возбуждения с квантованием и ал-горитмом максимального правдоподо-бия (MP-MLQ). В этом случае пози-ции фреймов группируются в подгруп-пы с четными и нечетными номерами. Для определенного номера импульса из четной последовательности (пятый или шестой в зависимости от того, является ли сам фрейм четным или не-четным) используется последователь-ный многоимпульсный поиск. Похо-жий поиск повторяется для подфрей-мов с нечетными номерами. Для возбуждения выбирается группа с мини-мальными общими искажениями.

На стороне декодера информа-ция кодера с линейным предсказа-нием (LPC) и информация адаптив-ной и фиксированной кодовой книг демультиплексируется и использует-ся для реконструкции выходного сиг-нала. Для этих целей используется адаптивный постфильтр. В случае ко-дера G.723.1 сигнал возбуждения пе-ред прохождением через фильтр син-теза LPC пропускается через LT (long-term -- долговременный) постфильтр и ST (short-term -- кратковременный) постфильтр.

LD-CELP (Long-Delay CELP). Рекомендация G.728

В Рекомендации содержится опи-сание алгоритма кодирования речевых сигналов на скорости 16 кбит/с с помо-щью линейного предсказания с кодиро-ванием сигнала возбуждения с малой задержкой. Алгоритм LD-CELP опи-сывает работу кодера и декодера.

В алгоритме LD-CELP сохране-на суть метода CELP, представляю-щего собой метод «анализа через син-тез» путем поиска сигналов в кодовой книге. Для получения алгоритмиче-ской задержки порядка 0,625 мс ис-пользуется адаптация предсказателей и уровней сигнала возбуждения по вы-ходу. Передается только индекс сиг-нала возбуждения, найденный в кодо-вой книге. Обновление коэффициен-тов предсказания производится с помо-щью LPC-анализа ранее квантованной речи. Уровень возбуждения обновля-ется с помощью информации, содержа-щейся в ранее квантованном сигнале возбуждения. Размер блока для ада-птации вектора сигнала возбуждения и уровня составляет всего лишь пять отсчетов. Обновление взвешивающего фильтра, учитывающего восприятие, производится с помощью LPC-анализа неквантованной речи.

После выполнения преобразова-ния сигнала ИКМ по закону А или м в линейный ИКМ-сигнал входной сигнал делится на блоки по пять последова-тельных отсчетов. Для каждого вход-ного блока кодер пропускает каждый из 1024 векторов кодовой книги (хра-нящихся в кодовой книге сигнала воз-буждения) через устройство масштаби-рования уровня сигнала возбуждения и синтезирующий фильтр. Из полу-ченных в результате пропускания всех 1024 векторов-кандидатов квантован-ного сигнала кодер определяет один, минимизирующий величину взвешен-ной по частоте среднеквадратической ошибки относительно вектора входно-го сигнала. 10-битовый индекс, соот-ветствующий наилучшему вектору в кодовой книге, который соответствует наилучшему вектору-кандидату кван-тованного сигнала, передается в деко-дер. На следующем этапе для обно-вления памяти фильтра и подготов-ки к кодированию следующего векто-ра сигнала наилучший кодовый вектор проходит через устройство масштабирования уровня сигнала возбуждения и синтезирующий фильтр. Коэффициенты синтезирующего фильтра и уровень сигнала возбуждения периодически обновляются путем адаптации по выходу, базирующейся на квантованном сигнале, масштабированном по уровню, и сигнале возбуждения.

Индекс в книге векторного квантования (VQ) возбуждения представляет собой единственную информа-цию, которая в явной форме переда-ется из кодера в декодер. Три других типа параметров: уровень сигналa возбуждения, коэффициенты синтезирующего фильтра и коэффициенты взвешивающего фильтра, учитыва-ющего восприятие, обновляются пери-одически. Эти параметры получаются путем адаптации по выходу из сигна-лов, которые появляются до текуще-го вектора сигнала. Уровень сигнала возбуждения обновляется для каждого вектора, а коэффициенты взвешиваю-щего фильтра, учитывающего воспри-ятие, и коэффициенты синтезирующе-го фильтра обновляются для каждых четырех векторов (т.е. для каждых 20 отсчетов или для периода обновления длительностью 2,5 мс). Следует отме-тить, что хотя последовательность об-работки в алгоритме имеет цикл ада-птации, равный четырем векторам (20 отсчетов), емкость основного буфера составляет только один вектор (пять отсчетов). Такая малая емкость буфе-ра позволяет получить задержку при передаче в одном направлении менее 2 мс.

Многополосное кодирование и кодирование с адаптивным преобразованием

Среди методов кодирования с ча-стотным разбиением известны две тех-нологии: многополосное кодирова-ние -- SBC (Sub-Band Coding) и ко-дирование с адаптивным преобразо-ванием -- АТС (Adaptive Transform Coding). Основной принцип обеих схем -- разделение спектра входного на несколько частотных поддиапазо-нов (полос), которые затем кодируют-ся отдельно. В SBC набор фильтров выполнен так, что разбивает входной речевой сигнал обычно на 4-16 широ-ких частотных поддиапазонов (широ-кополосный анализ). В АТС для обес-печения более точных частотных пока-зателей число поддиапазонов увеличе-но до 128-256 (узкополосный анализ).

Многополосное кодирование обыч-но рассматривается как метод коди-рования формы сигнала, который ис-пользует широкополосный кратковре-менный анализ и синтез. После раз-деления речевого спектра на несколь-ко поддиапазонов низшая частота ка-ждого из них приводится к нулю, затем поддиапазон дискретизируется в соот-ветствии с частотой Найквиста (минимальной частотой дискретизации), квантуется, кодируется, мультиплек-сируется и передается. В приемнике поддиапазоны демультиплексируются, декодируются и переводятся обратно в их частотные позиции. Результи-рующие сигналы поддиапазонов затем складываются для получения аппрок-симированного исходного речевого сиг-нала.

Глава 2 IP-телефония

Основные стандарты кодирования речи, применяемые в 1Р-телефонии, приведены в табл. 4.1.

Таблица 4.1

Стандарты ITU-T по кодированию речи, применяемые в IP-телефонии

Стандарт

Описание

G.711

Импульсно-кодовая модуляция 64 кбит/с (ИКМ) (А-закон и м-закон)

G.722

Широкополосные кодеры, работающие на скорости 64, 56 или 48 кбит/с

G.726

Рекомендации по кодерам АДИКМ, которые охватывают G721 и G723

G.727

АДИКМ, работающие на скоростях 40, 32, 24 или 16 кбит/с

G.728

Вокодеры с линейным предсказанием, с кодовым возбуждением, с низкой задержкой, скорость 16 кбит/с (LD-CELP)

G.729

Вокодеры с линейным предсказанием, с алгебраическим кодовым возбуждени-ем, с сопряженной структурой, скорость 8 кбит/с (CS-ACELP)

G.723.1

Низкоскоростные вокодеры для связей мультимедиа, работающие на скорости 6,3 и 5,3 кбит/с

Каждая из при-веденных в таблице рекомендаций ITU может служить основой для передачи речи по Интернету и другим сетям, так как все они обеспечивают низкие ско-рости передачи и достаточно просты в реализации персональным компьюте-ром или в микропроцессорном исполне-нии.

Основной целью проектирования кодеров является уменьшение скоро-сти передачи речи при безусловном сохранении требуемого уровня каче-ства речи для конкретного приложе-ния. Приложения по передаче речи в Интернет или Интранет могут быть либо самостоятельными, либо в фор-ме мультимедиа. Так как мультиме-диа подразумевают наличие несколь-ких средств кодирования речи, для та-ких приложений подразумевается, что поток речевых данных передается по линии связи совместно с другими сиг-налами. Некоторые из таких приложе-ний могут включать:

одновременную передачу речи и видео;

приложения с одновременной ци-фровой передачей речи и данных (DSVD);

одновременную передачу речи и факса.

Особенности функционирования каналов для передачи речевых данных и прежде всего сети Интернет, а также возможные варианты построения си-стем телефонной связи на базе Интер-нет предъявляют ряд специфических требований к речевым кодерам (воко-дерам). Благодаря пакетному прин-ципу передачи и коммутации речевых данных отпадает необходимость коди-рования и синхронной передачи оди-наковых по длительности фрагментов речи.

Наиболее целесообразным и есте-ственным для систем IP-телефонии является применение кодеров с пере-менной скоростью кодирования рече-вого сигнала. В основе кодера речи с переменной скоростью лежит класси-фикатор входного сигнала, определя-ющий степень его информативности и, таким образом, задающий метод коди-рования и скорость передачи речевых данных. Наиболее простым классифи-катором речевого сигнала является де-тектор активности речи (VAD -- Voice Activity Detector), который выделяет во входном речевом сигнале активную речь и паузы. При этом фрагменты сиг-нала, классифицируемые как актив-ная речь, кодируются каким-либо из известных алгоритмов (как правило, методом CELP) с типичной скоростью 4…8 кбит/с. Фрагменты, классифи-цированные как паузы, кодируются и передаются с очень низкой скоростью (порядка 0,1.. .0,2 кбит/с) или не пере-даются вообще. Передача минималь-ной информации о паузных фрагмен-тах предпочтительна.

С помощью более эффективных классификаторов входного сигнала мо-жет более детально осуществляться классификация фрагментов, соответ-ствующих активной речи. Это позво-ляет оптимизировать выбор стратегии кодирования (скорости передачи дан-ных), выделяя для особо ответствен-ных за качество речи участков рече-вого сигнала большее число бит (соответственно большую скорость), для менее ответственных - меньше бит (меньшую скорость). В результате мо-гут быть достигнуты еще более низкие средние скорости (2...4 кбит/с) при высоком качестве синтезируемой речи.

Передатчик состоит из кодера речи, VAD, усреднителя фоновых шумов и переключателя на канал, который управляется выходом VAD. Когда на вход есть речь, передатчик постоянно включен. Во время пауз передатчик выключается, но после определенного времени, которое должно быть достаточно коротким, передатчик снова включается на один фрейм, чтобы передать информацию о среднем фоне для точного генерирования в приемнике комфортного шума. На приемной стороне, если определено наличие речи, происходит нормальный синтез. Если определено наличие паузы, выполняется одно из двух действий. Если не передается новой информации о фоне, используются существующие параметры шума, генерируется комфортный шум и используется для текущего фрейма. Если передаются новые параметры фонового шума, то старые параметры заменяются на вновь декодированные, а за тем генерируется новый комфортный шум. Обычно, на стороне декодера также используется индикатор «хоро-ший/плохой» фрейм, чтобы показать верны или нет декодированные пара-метры, и если нет, используется заме-на фрейма. Эффективность DTX зависит от точности VAD.

Кодеры стандарта D-AMPS

Цифровой стандарт мобильной ра-диосвязи D-AMPS (Digital Advanced Mobile Phone Service), принятый в США в 1990 г., по своим функциональ-ным возможностям и предоставляе-мым услугам приближается к стандар-ту GSM. Стандарт D-AMPS не принят в европейских странах, за исключени-ем России, где он в основном ориенти-рован на региональное использование.

Блок предварительной обработки выполняет следующие функции:

предварительную цифровую фильтрацию входного сигнала с целью подъема верхних частот, на долю кото-рых в спектре речевого сигнала прихо-дится меньшая мощность;

«нарезание» сигнала на сегменты по 160 выборок (20 мс).

Для каждого 20-мс сегмента оце-ниваются параметры фильтра кратко-временного линейного предсказания - 10 коэффициентов частичной корреля-ции , (порядок предсказа-ния М = 10), которые непосредствен-но кодируются для передачи в канал связи без каких-либо дополнительных преобразований, и оценивается ампли-тудный множитель р, определяющий энергию сегмента речи.

Сигнал с выхода предваритель-ной обработки фильтруется фильтром-анализатором кратковременного ли-нейного предсказания A(z), имеюще-го форму трансверсального линейного фильтра, для чего коэффициенты ча-стичной корреляции преобразуются в коэффициенты линейного предсказа-ния .

Выходной сигнал фильтра крат-ковременного предсказания (остаток предсказания ) используется для оценки параметров фильтра дол-говременного предсказания - задерж-ки ф и коэффициента предсказания , причем параметры долговременного предсказания оцениваются в отдель-ности для каждого из четырех подсегментов по 40 выборок, на которые раз-деляется сегмент из 160 выборок.

Для каждого из подсегментов определяются параметры сигнала воз-буждения. Для этого в составе коде-ра используется схема, аналогичная входящей в состав декодера, которая включает фильтры-синтезаторы крат-ковременного и долговременного предсказания и две кодовые кни-ги и реализует метод «анализа-через-синтез». Каждая из кодовых книг сиг-нала возбуждения содержит 128 кодо-вых векторов, по 40 элементов в ка-ждом.

Все кодовые векторы одной книги являются элементами 7-мерного линейного подпространства в 40-мерном пространстве. Каждая кодовая книга, содержащая 128 векторов, задается семью базисными векторами и 128 кодовыми словами (7-элементными векторами коэффициентов линейных комбинаций) с однобитовыми элементами.

Сигнал возбуждения фильтр синтезатора кратковременного предсказания, в соответствии со схемой декодера рис. 5.4, является суммой векторов возбуждения из двух кодовых книг и вектора с выхода фильтра синтезатора долговременного предсказания. Векторы возбуждения из кодовых книг до подачи на сумматор умножаются на соответствующие коэффициенты усиления и , а входным сигналом фильтра-синтезатора долговременного предсказания является, в зависимости от участка сегмента, выходной сигнал того же фильтр или суммарный сигнал возбуждения фильтра-синтезатора кратковременно-го предсказания. Параметры сигна-ла возбуждения - номера векторов возбуждения и из первой и вто-рой кодовых книг и соответствующие коэффициенты усиления и - определяются по критерию миниму-ма среднеквадратичной ошибки на вы-ходе фильтра-синтезатора кратковре-менного предсказания, входящего в со-став кодера. Предварительно базис-ные векторы обеих кодовых книг ортогонализируются: для первой книги - по отношению к выходному вектору фильтра-синтезатора долговременно-го предсказания, для второй книги - по отношению к тому же выходному вектору и к базисным векторам первой книги.

В результате выходная информа-ция кодера речи для 20-мс сегмента включает:

* параметры фильтра кратковре-менного линейного предсказания - 10 коэффициентов частичной корреляции , , и амплитудный множи-тель р - один набор на весь сегмент;

* параметры фильтра долговре-менного линейного предсказания - ко-эффициент предсказания и задержку ф - для каждого из четырех подсегментов;

* параметры сигнала возбуждения - номера и векторов возбуждения из двух кодовых книг и соответствую-щие коэффициенты усиления и - для каждого из четырех подсегментов.

В табл. 5.2 приведено содержание выходной информации кодера с указа-нием числа бит, используемых для ко-дирования.

Таблица 5.2

Кодирование выходной информации кодера речи стандарта D-AMPS

Передаваемые параметры

Число бит

Примечание

Параметры кратковременного предсказания (коэффициенты частичной корреляции , )

38

- 6 бит;

- по 5 бит;

- по 4 бита;

- по 3 бита;

- 2 бита

Амплитудный множитель (энергия сегмента) р

5

Задержка фильтра долговременного предска-зания ф (для каждого из четырех подсегментов)

28

7 бит на каждый подсегмент

Номера векторов возбуждения и из двух кодовых книг (для каждого из четырех подсег-ментов

56

h и i2 по 7 бит

Коэффициенты усиления , и (для каждо-го из четырех подсегментов)

32

8 бит на каждый подсегмент; векторно-му квантованию и кодированию подвер-гаются некоторые функции от , и

Всего на 20-мс сегмент

159

Общий объем информации, выдаваемой для 20-мс сегмента речи, составляет 159 бит. Поскольку исход-ный объем информации на входе коде-ра составляет 1280 бит (160 выборок по 8 бит), кодер осуществляет сжатие информации более чем в 8 раз. Пе-ред передачей в канал связи выходная информация кодера речи подвергается дополнительному канальному кодиро-ванию, причем разные параметры в за-висимости от их важности для обеспе-чения качества речи кодируются с раз-личной степенью избыточности.

Функционирование декодера осу-ществляется по следующему алгорит-му. Сигнал возбуждения фильтра-син-тезатора кратковременного предсказа-ния формируется таким же образом, как и в синтезирующей схеме кодера:

по номерам и из кодовых книг выбираются векторы возбуждения, ко-торые умножаются соответственно на коэффициенты усиления и и складываются с выходным вектором фильтра-синтезатора долговременного предсказания, определяемого параме-трами и ф.

Окончательно сигнал возбужде-ния фильтруется фильтром-синтеза-тором кратковременного предсказа-ния, выполненного в форме трансверсального фильтра, т.е. параметры фильтра преобразуются из коэффициентов частотной корреляции в коэффициенты предсказания . Для улучшения субъективного качества синтезированной речи выходной сигнал фильтра-синтезатора подвергается цифровой адаптивной постфильтрации и с выхода постфильтра получается восстановленный цифровой речевой сигнал.

Кодеры TETRA

TETRA (Trans-European Trunked Radio) представляет собой стандарт цифровой транкинговой радиосвязи, состоящий из ряда спецификаций, разработанных Европейским институ-том телекоммуникационных стандар-тов ETSI.

TETRA -- открытый стандарт, т.е. доступ к спецификациям TETRA сво-боден для всех заинтересованных сто-рон. В связи с этим оборудование раз-личных производителей должно быть совместимо.

Стандарт TETRA создавался как единый общеевропейский цифровой стандарт. Стандарт разработай на основе технических решений и реко-мендаций стандарта GSM и ориенти-рован на создание систем связи, эф-фективно и экономично поддержива-ющих совместное использование сетей различными группами пользователей с обеспечением секретности и защищен-ности информации.

Речевой кодер TETRA основан на модели кодирования CELP - с ли-нейным предсказанием с кодовым воз-буждением. В этой модели блок из N речевых выборок синтезируется пу-тем фильтрации соответствующей об-новленной последовательности из ко-довой книги, масштабированной коэф-фициентом усиления , с помощью двух изменяющихся во времени филь-тров.

Первый фильтр является филь-тром долгосрочного предсказания (фильтром основного тона), цель ко-торого - моделирование псевдоперио-дического речевого сигнала, а второй - фильтр краткосрочного предсказа-ния - моделирует огибающую речево-го спектра.

Передаточная характеристика долгосрочного фильтра (или фильтра синтеза основного тона) определяется формулой

где Т - задержка основного тона; - коэффициент усиления основного тона. Фильтр синтеза основного тона вы-полнен как адаптивная кодовая книга, где для задержек, меньших чем дли-на подфрейма, повторяется последнее возбуждение.

Краткосрочный фильтр синтеза определяется формулой

где , , - параметры ли-нейного предсказания; р - порядок предсказателя. В кодере TETRA по-рядок р = 10.

При способе анализа-через-синтез синтезированная речь вычисляется для всех кандидатов - последователь-ностей, составляя особую последова-тельность, которая и формирует вы-ходной сигнал, наиболее близкий к исходному, в соответствии с взвешен-ной величиной измеренных искажений. Фильтр взвешивания, корректирую-щий ошибку предыскажений в области форманты спектра речи, определяется формулой

где - обратный (инверсный) фильтр линейного предсказания; (используется значение ). Для взвешивающего филь-тра и фильтра синтеза формант используются квантованные па-раметры линейного предсказания.

В алгебраическом CELP (ACELP) используется специальная кодовая книга, имеющая алгебраическую структуру. Эта алгебраическая струк-тура имеет некоторые преимущества в отношении сохранения, сложности поиска и устойчивости (робастности). Кодер TETRA использует специаль-ную динамическую алгебраическую кодовую книгу возбуждения, посред-ством которой, а также динамической матрицы формы образуются фиксиро-ванные векторы возбуждения. Матри-ца формы - это функция модели A(z) линейного предсказания. Главная ее роль - формировать векторы возбу-ждения в частотной области так, что-бы их энергии были сконцентрированы в наиболее важных частотных полосах. Используемая матрица формы являет-ся триангулярной Теплицевой матри-цей низшего порядка, сформированной из импульсного отклика фильтра:

где A(z) -- инверсный фильтр линей-ного предсказания (в конкретных реа-лизациях и ).

В кодере TETRA используются фреймы речи по 30 мс. Это требует-ся для того, чтобы параметры кратко-срочного предсказания вычислялись и передавались в каждом речевом фрей-ме. Речевой фрейм разделен на четы-ре подфрейма по 7,5 мс (60 выборок). Основной тон и параметры алгебраиче-ской кодовой книги также передаются в каждом подфрейме. В табл. 5.3 пред-ставлено распределение бит для коде-ра TETRA. Должно быть сформиро-вано 137 бит для каждого фрейма по 30 мс, что в результате дает скорость 4567 бит/с.

Таблица 5.3

Параметр

Номер сегмента

Всего в кадре

1

2

3

4

Коэффициенты линей-ного предсказания

26

Период основного тона

8

5

5

5

23

Индекс алгебраической кодовой книги

16

16

16

16

64

Коэффициенты уси-ления

6

6

6

6

24

Всего

137

Кодеры стандарта АРСО 25

АРСО 25 - стандарт транкинговой радиосвязи, описывающий струк-туру цифровой транкинговой систе-мы и некоторые ее интерфейсы. Для цифровой передачи речи стандарт АРСО 25 предусматривает использова-ние кодера IMBE (Improved MultiBand Excitation, модифицированный метод многополосного возбуждения). Кодер формирует цифровой поток со скоро-стью 4,4 кбит/с. Для исправления ошибок в цифровом речевом сигнале используется избыточное кодирование, порождающее дополнительный цифро-вой поток со скоростью 2,8 кбит/с.

Цифровой речевой сигнал переда-ется кадрами длительностью 180 мс. Два речевых кадра образует суперкадр длительностью 360 мс. Перед переда-чей речи следует преамбула длитель-ностью 82,5 мс, которая содержит синхропакет (48 бит), идентификатор сети (64 бита), служащий для предотвраще-ния конфликтов между радиостанци-ями, работающими на одной частоте; информацию для алгоритма шифрова-ния, идентификатор ключа алгоритма шифрования и другие служебные иден-тификаторы (всего 126 бит). Кадры ре-чи, кроме собственно речевой инфор-мации, содержат дополнительную ин-формацию (управления связью, кана-ла сигнализации и т.д.)

Речевой IMBE-кодер основан на модели речи, которая относится к моделям с многополосным возбужде-нием (МВЕ). Основная идея работы кодера состоит в разделении цифрово-го речевого входного сигнала на пере-крывающиеся речевые сегменты (или фреймы) с использованием окна Кай-зера. Затем для определенного фрей-ма оценивается набор параметров.

Речевой MBE-кодер является во-кодером, т.е. он не кодирует входной речевой сигнал выборка за выборкой, а синтезирует сигнал, который содержит ту же информацию для восприятия че-ловеком, что и исходный речевой сиг-нал. Заметим, что когда речь не явля-ется вокализованнной, исходный и син-тезированный сегменты речи могут не иметь никакого сходства во временной области.

Речевой MBE-кодер имеет два основных преимущества перед ра-нее используемыми вокодерами: во-первых, он основан на МВЕ рече-вой модели, которая является более устойчивой, чем традиционные речевые модели в рассмотренных вокодерах; во-вторых, данный метод использует более сложный алгоритм оценки параметров модели речевого синтеза речевого сигнала из параметров модели.

Главное отличие речевых традиционных вокодеров от модели МВЕ состоит в сигнале возбуждения. В обычных речевых моделях для каждого речевого сегмента используется единственное решение вокал/невокал. В отличие от этого речевая модель МВЕ разделяет сигнал возбуждения на несколько неперекрывающихся частотных полос и принимает решение вокал/невокал для каждой частотной полосы. Это позволяет представить сигнал возбуждения для определенного речевого сегмента в виде смеси периодической (вокализованной) энергии и шумоподобной (невокализованной) энергии. Из-за этих множественных определений вокал/невокал эта модель называется моделью с многополосным возбуждением. Такая речевая модель позволяет синтезировать речь с более качеством, чем традиционные модели. Кроме того, речевая модель МВЕ более устойчива к фоновому шуму.

В речевой модели MBE сигнал возбуждения формируется из сигнала основного тона (или основной частоты) и решений вокал/невокал. Для вокализованной речи сигнал возбуждения является периодической импульсной последовательностью, в которой расстояние между импульсами определяется периодом основного тона . Для невокализованной речи сигнал возбуждения представляет собой белый шум. Периодический спектр создается из взвешенной периодической последовательности импульсов, которая полностью определяется окном взвешивания и периодом основного тона. Его спектр формируется из взвешенной последовательности случайного шума.

Обычно алгоритмы для оценки параметров возбуждения и алгоритмы для оценки параметров огибающей спектра работают независимо. Эти параметры оцениваются на основе нескольких критериев без ясных оснований, насколько синтезированная речь должна быть близка к исходной. Это может проявиться в том, что синтезированный спектр будет слегка отличаться от исходного.

В речевом IMBE-кодере параметры возбуждения и огибающей спектра оцениваются одновременно так, что синтезированный спектр является самым близким к исходному речевому спектру.

Блок-схема алгоритма анализа показана на рис. 5.7.

Рисунок 5.7

Параметры МВЕ модели речи, которые должны быть оценены для каждого речевого фрейма следующие:

период основного тона (или основная частота);

решение вокал/невокал;

спектральные амплитуды, харак-теризующие огибающую спектра.

В декодере вокализированная и невокализированная компоненты син-тезируются отдельно и на заключи-тельной стадии объединяются для по-лучения полного речевого сигнала. Алгоритмы, которые используются для синтеза вокализированных и невокализированных частей речи, осно-ваны на двух различных способах.

Невокализованная часть речи ге-нерируется из гармоник, которые объ-явлены невокализованными. Для ка-ждого фрейма речи блок случайно-го шума взвешивается и преобразует-ся с помощью быстрого преобразова-ния Фурье. Области спектра, которые соответствуют вокализованным гармо-никам, принимаются равными нулю.

Так как вокализованная речь мо-делируется ее индивидуальными гар-мониками в частотной области, на сто-роне декодера она восстанавливается как совокупный сигнал регулируемых генераторов. Каждой гармонике вокализованной области фрейма поставлен в соответствие генератор, который характеризуется частотой и фазой. Однако из-за того, что вокализованная часть речи не является периодической на интервалах, состоящих нескольких фреймов анализа, отклонения от ожидаемых параметров соседних фреймов могут вызвать скачки по концам фреймов, что приведет к значительному ухудшению качества речи. Для разрешения этой проблемы во время синтеза проверяются параметры текущего и предыдущего фреймов для уверенности, что на границе фреймов происходит плавный переход. Это делается для того, чтобы на границах фреймов вокализированная речь была непрерывной. Для обеспечения непрерывности в начале и конце фрейма речи функция амплитуды линейно интерполируется между значениями оценок для текущего и предыдущего фреймов.

Синтез речи в IMBE-декодере требует информации об основной частоте, решении вокал/невокал, величине спектральных составляющих и фазе вокализованных гармоник. Так как фазы вокализованных гармоник можно предсказать, информация о фазе не передается между кодером и декодером. Основная частота (основой тон) квантуется с половинной точностью выборки во временной области, причем возможный диапазон тона перекрывается восемью битами. Peшение вокал/невокал является двоичным числом и не требует квантования. Об-щее распределение бит для каждого фрейма приведено в табл. 5.4.

Таблица 5.4.

Распределение бит IMBE-кодера в системе АРСО 25

Параметр

Число бит

Основная частота

8

Информация вокал/невокал

b

Спектральные амплитуды

79 - b

Синхронизация

1

Число полос, на которые разбива-ется речевой фрейм в частотной обла-сти, зависит от основного тона фрейма, но не превышает 12.

Таким образом, в кодере IMBE фрейм речи имеет длительность 20 мс, содержит 144 бита, из которых 56 ис-пользуются для канального кодирова-ния, 88 - для кодирования параме-тров речевой модели. Кодер работает на скорости 4,4 кбит/с. Скорость пере-дачи в канале - 7,2 кбит/с.

Кодирование речи в системе INMARSAT-M

Для системы мобильной спутни-ковой связи INMARSAT была выбра-на улучшенная версия речевого коде-ра МВЕ, описанного в предыдущем параграфе как вер-сия стандарта на скорости 6,4 кбит/с для наземных систем подвижной свя-зи. Размер фрейма кодера 20 мс. При этом обеспечивается кодирование ис-точника и канала с помощью 128 бит на каждый фрейм. Из этих 128 бит 45 (2,25 кбит/с) зарезервированы для коррекции ошибок, а оставшиеся 83 би-та (4,15 кбит/с) разделены между раз-личными параметрами речи, как пока-зано в табл. 5.5.

Таблица 5.5

Распределение бит в системе INMARSAT-M

Параметр

Число бит

Основная частота

8

Информация вокал/невокал

b

Спектральные амплитуды

75 - b

Синтез речи в МВЕ декодере тре-бует информации об основной частоте, решении вокал/невокал, спектраль-ных величинах и фазах вокализиро-ванных гармоник. Так как фазы вока-лизированных гармоник можно пред-сказать, информация о фазе не пере-дается от кодера к декодеру. Основная частота (основной тон) обычно кван-туется с половинной точностью вы-борки во временной области, причем возможный диапазон тона перекры-вается восемью битами. Решение во-кал/невокал является двоичным чи-слом и не требует квантования. Набор спектральных величин требует большей точности и эффективности кван-тования. Общее распределение бит для каждого фрейма следующее:

1) восемь бит для точного кванто-вания тона;

2) b бит для решения вокал/не-вокал, где b - число полос принятия решения вокал/невокал;

3) оставшиеся биты для квантова-ния гармоник.

Так как число гармоник зависит от основного тона, который изменя-ется, число бит, присваиваемых для решения вокал/невокал, может так-же изменяться. Типичное число вокализированных/невокализированных полос равно 12 (4), что означает, что максимальное число бит для описания вокал/невокал равно 12. Общее чи-сло бит для квантования гармоник определяется формулой

где максимум b равен 12; - общее число бит для фрейма.

Рассмотрим способ квантования, ис-пользуемый в системе INMARSAT-M.

Квантование основной часто-ты. Основная частота квантуется при преобразовании ее в эквивалентный период основного тона . Значения периода основного тона обычно ограни-чены диапазоном . В си-стеме МВЕ, предназначенной для ра-боты на скорости 6,4 кбит/с, этот пара-метр равномерно квантуется с исполь-зованием 8 бит при размере шага 0,5, что дает возможность обеспечить поло-винную точность выборки.

Кодирование решений во-кал/невокал. b решений вокал/не-вокал являются двоичными числами, поэтому могут быть закодированы с использованием одного бита для ка-ждой полосы решения. Система на скорости передачи 2,4 кбит/с исполь-зует максимум 12 полос, каждая с ши-риной Гармоники вне b полос во-кал/невокал приняты невокализированными.

Квантование спектральных величин. Перед квантованием спек-тральных величин для уменьшения их изменения используется этап предска-зания.

Остатки предсказания группиру-ются в шесть последовательных бло-ков, содержащих остаточных выборок каждый. Каждый блок преобразуется по частоте с использованием дискретного косинусоидального преобразования (ДКП) размером .

Постоянные составляющие L шести ДКП-блоков (первые коэффициенты) группируются как вектор и квантуются с использованием кодовой книги шестибитового скалярного усиления и десятибитового вектора формы. Коэффициенты более высокого порядка М квантуются с использованием скалярных квантователей, где в процессе присвоения бит распределяются оставшиеся биты в соответствии с важностью для субъективного восприятия каждой величины. Блок-схема общей процесса квантования величин показана на рис. 5.8.

Рисунок 5.8

После правильного восстановления спектральных величин МВЕ-кодер пытается улучшить качество восприятия синтезированной речи с использованием усилителя. Усиление спектральных величин выполняется генерированием набора спектральных ве-сов из принятых параметров текущего фрейма.

В типичном МВЕ-кодере большая часть бит выделена для квантования спектральных величин. В случае си-стемы INMARSAT-M, где кодер источ-ника работает на скорости 4,15 кбит/с при скорости фреймов 50 Гц, только 20 (8+ 12) бит используются для форми-рования информации об основном пе-риоде и информации «вокал/невокал». Остальные биты используются для квантования спектральных величин. Таким образом, для успешного синте-за речи необходимо точно знать основ-ной период. Для покрытия речевого спектра 4 кГц достаточно 12 полос во-кал/невокал. В результате общая ско-рость кодера может быть уменьшена за счет более эффективного квантова-ния величин. В системе INMARSAT-M все спектральные величины, кроме ше-сти, проквантованы с использованием скалярных квантователей. Сокраще-ние скорости можно добиться также за счет векторного квантования всех величин. Однако, так как число спек-тральных величин может изменяться от 9 до более чем 60 в зависимости от основной частоты, векторную кодо-вую книгу, учитывающую эти измене-ниями, создать очень сложно. Поэто-му целесообразно векторное квантова-ние использовать только для основной формы спектра, которая может быть принята независимой от основной ча-стоты.

Глава 3 Перспективы кодирования речи.

В данной главе будут коротко рассмотрены перспективы использования различных речевых кодеков в сетях связи общего пользования.

Рассмотрим некоторые параметры наиболее распространенных кодеков сетей общего пользования.

Однако, кроме кодеков ИКМ по G.711, на ССОП в настоящее время при-меняются аналого-цифровые преобра-зователи других типов, использующие те или иные способы компрессии речи и поэтому имеющие меньшую скорость передачи цифрового сигнала по срав-нению со стандартным кодеком ИКМ. Основные области применения низкоскоростных кодеков: * системы подвижной связи (в част-ности, цифровые сотовые и транкинговые системы); * аппаратура DCME (в небольшом количестве используется на сети ОАО «Ростелеком»); * абонентские компьютерные и мультимедийные терминалы, аппара-ты IP-телефонии;

* цифровые беспроводные телефоны.

Таблица 6.1. Наиболее распространенные кодеки.

Кодек

Наименование

Скорость кбит/с

Стандарт

Standard PCM

Стандартный ИKM кодек для сетей с коммута-цией каналов

64

ITU-T G.711

GSM-FR PRE-LTP

Кодек 1-го поколения GSM с возбуждением регулярной последовательностью импульсов и долговременным предсказанием

13

ETSIGSM 06.16

GSM-HR VCELP

Кодек GSM (с «половинной» скоростью) с ли-нейным предсказанием и возбуждением вектор-ной суммой

5,6

ETSIGSM 06.20

GSM-EFR ACELP

Кодек 2-го поколения GSM с алгебраическим кодовым возбуждением и линейным предсказа-нием

12,2

ETSIGSM 06.60

Videophone ACELP

Речевой кодек для мультимедийной связи с ал-гебраическим кодовым возбуждением и линей-ным предсказанием

5,3

ITU-T G.723.1

Videophone MP-MLQ

Речевой кодек для мультимедийной связи с мно-гоимпульсным квантованием по критерию прав-доподобия

6,3

ITU-T G.723.1

ADPCM

Кодек АДИКМ (адаптивной дифференциальной ИКМ)

40, 32, 24, 16

ITU-T G.726

LD-CELP

Кодек с линейным предсказанием, с кодовым возбуждением и малой задержкой

16, 12, 8, 9, 6

ITU-T

G.728

CS-ACELP

Кодек с линейным предсказанием, алгебраи-ческим кодовым возбуждением и сопряженной структурой

8

ITU-T

G.729

Низкоскоростным кодекам свойственны определенные ухудшения параметров, влияющие на качество передачи речи, по сравнению со стандартным кодеком ИКМ. Важно, что эти ухудшения накапливаются при тандемном включении как однородных, так и разнородных низкоскоростных кодеков.

Следует отметить следующие основные факторы, влияющие на каче-ство передачи речи при использовании кодеков:

* искажения квантования;

* временная задержка;

* амплитудно-частотные искаже-ния;

* битовые ошибки;

* проскальзывания;

* потеря кадров;

* потеря пакетов.

Планирование речевых соедине-ний требует обязательного учета ухуд-шений, вносимых каждым переходом А-Ц и Ц-А, и определения на этой ос-нове допустимого количества таких пе-реходов. Для этой цели используется так называемая Е-модель, разработанная ETSI и рекомендуемая МСЭ-Т при планировании речевых соединений «из конца в конец». Эта модель позволяет в комплексе учесть практически все ухуд-шающие факторы.

Наиболее важным параметром Е-модели является коэффициент ухудшения за счет аппа-ратуры, обозначаемый Ic. Чем больше этот коэффициент, тем большую долю деградации вносит данная аппаратура (конкретно - кодек). В табл. 6.2 для срав-нения показаны значения для различ-ных кодеков.

Таблица 6.2

Кодек

Скорость кбит/с

Стандарт

Ic (G.113)

Standard PCM

64

ITU-T G.711

0

GSM-FR PRE-LTP

13

ETSIGSM 06.16

20

(25-42)*

GSM-HR VCELP

5,6

ETSIGSM 06.20

23

(32-45)*

GSM-EFR ACELP

12,2

ETSIGSM 06.60

5

(15-35)*

Videophone ACELP

5,3

ITU-T G.723.1

19

Videophone MP-MLQ

6,3


Подобные документы

  • Критерий разработки кодирующих устройств. Международный стандарт кодирования для передачи речи в телефонном канале PCM. Оценка качества сигнала. Задача спектрального оценивания. Гармонический алгоритм Берга. Системы синтеза речи. Форматы звуковых файлов.

    дипломная работа [905,3 K], добавлен 17.10.2012

  • Знакомство с идеей векторного способа представления изображений в цифровом виде. Разработка последовательности команд для кодирования графического объекта. Основные команды; двоичное кодирование графической информации, растровый и векторный варианты.

    презентация [128,5 K], добавлен 05.01.2012

  • Технология обработки графической информации с помощью ПК, применение в научных и военных исследованиях: формы, кодирование информации, ее пространственная дискретизация. Создание и хранение графических объектов, средства обработки векторной графики.

    реферат [20,7 K], добавлен 28.11.2010

  • Анализ эффективности способов кодирования. Средний размер одного разряда и средняя длина кодового слова. Кодирование по методу Хаффмена. Кодирование информации по методу Шенона-Фано. Построение кодового дерево для различных методов кодирования.

    контрольная работа [491,4 K], добавлен 15.10.2013

  • Методика и основные этапы исследования физических процессов и сложных динамических систем, которые описываются системами дифференциальных уравнений высшего порядка с большим количеством нелинейностей с помощью специальных аналоговых вычислительных машин.

    курсовая работа [121,5 K], добавлен 12.05.2009

  • Оптимальное статистическое (экономное) кодирование. Основные понятия и определения теории кодирования. Принципы построения оптимальных кодов. Способность системы осуществлять прием информации в условиях наличия помех. Увеличение мощности сигналов.

    реферат [69,3 K], добавлен 09.07.2009

  • Место темы "Кодирование информации" в школьном курсе информатики. Рекомендации по изучению "Кодирования информации" в школьном курсе информатики. Дидактический материал для изучения темы "Кодирование информации" и внеклассное мероприятие по информатике.

    курсовая работа [2,3 M], добавлен 17.06.2012

  • Рост активности в области теории и технической реализации искусственных нейронных сетей. Основные архитектуры нейронных сетей, их общие и функциональные свойства и наиболее распространенные алгоритмы обучения. Решение проблемы мертвых нейронов.

    реферат [347,6 K], добавлен 17.12.2011

  • Информация: формы ее предоставления, кодирование, измерение, обработка в ЭВМ. Устройства хранения, накопления и резервирования данных, их ограничения и достоинства. Построение графика функции с использованием табличного редактора Microsoft Excel.

    контрольная работа [148,2 K], добавлен 10.11.2009

  • Представление информации в двоичной системе. Необходимость кодирования в программировании. Кодирование графической информации, чисел, текста, звука. Разница между кодированием и шифрованием. Двоичное кодирование символьной (текстовой) информации.

    реферат [31,7 K], добавлен 27.03.2010

Работы в архивах красиво оформлены согласно требованиям ВУЗов и содержат рисунки, диаграммы, формулы и т.д.
PPT, PPTX и PDF-файлы представлены только в архивах.
Рекомендуем скачать работу.