Кодирование речевого сигнала

Критерий разработки кодирующих устройств. Международный стандарт кодирования для передачи речи в телефонном канале PCM. Оценка качества сигнала. Задача спектрального оценивания. Гармонический алгоритм Берга. Системы синтеза речи. Форматы звуковых файлов.

Рубрика Программирование, компьютеры и кибернетика
Вид дипломная работа
Язык русский
Дата добавления 17.10.2012
Размер файла 905,3 K

Отправить свою хорошую работу в базу знаний просто. Используйте форму, расположенную ниже

Студенты, аспиранты, молодые ученые, использующие базу знаний в своей учебе и работе, будут вам очень благодарны.

Размещено на http://www.allbest.ru/

Размещено на http://www.allbest.ru/

СОДЕРЖАНИЕ

Перечень сокращений

Введение

1. Обзор источников и анализ состояния вопроса

1.1 Критерий разработки кодирующих устройств

1.2 Кодирование PCM

1.3 Кодирование DPCM

1.4 LPC кодеры

1.5 Кодирование GSM 6.10

1.6 Кодирование CELP

1.7 Кодирование MP-MLQ

1.8 Оценка качества сигнала

2. Теоретический анализ исследуемых вопросов

2.1 Постановка проблемы, формулировка задачи

2.2 Теоретический анализ существующих алгоритмов спектра

2.2.1 Задача спектрального оценивания

2.2.2 Авторегрессионное спектральное оценивание

2.2.2.1 Оценивание корреляционной функции - метод Юла-Уалкера.

2.2.2.2 Методы оценивания коэффициентов отражения.

2.2.2.3 Геометрический алгоритм

2.2.2.4 Гармонический алгоритм Берга

2.3 Рассмотрение вопросов анализа и способа обработки речевых сигналов

2.3.1 Речевой сигнал

2.3.2 Обработка сигналов

2.3.3 Цифровая обработка речи

2.3.4 Кодирование речи

2.3.5 Системы синтеза речи

2.3.5.1 Ограничение на синтез речи

2.3.5.2 Методы синтеза

2.4 Форматы звуковых файлов

2.4.1 MIDI - формат

2.4.2 MP3 - формат

2.4.3 WAV - формат

3. Разработка алгоритма

3.1 Кодек речи CELP. Общие положения

3.2 Кодирование сигнала

3.3 Определение периода основного тона

3.4 Стохастическая и адаптивная кодовые книги

3.5 Определение среднеквадратической ошибки предсказания во временной области

3.6 Синтезирование сигнала

4. Анализ полученных данных

5. Экономическая часть

5.1 Характеристика программного продукта

5.2 Планирование выполнения работ и построение линейного графика выполнения НИР

5.3 Расчет сметной стоимости научно-технической продукции

5.4 Оценка научно-технического и экономического уровня НИР

5.5 Выводы по оценке научно-технического и экономического уровня НИР

6. Разработка вопросов охраны труда

6.1 Анализ условий труда

6.2 Техника безопасности

6.3 Производственная санитария и гигиена труда

6.4 Пожарная профилактика

Выводы

Перечень ссылок

ПЕРЕЧЕНЬ СОКРАЩЕНИЙ

AbS - analysis-by-synthesis

CDMA - Code division multiple access

CELP - Code Excited Linear Predictive

DPCM - Differential Pulse Code Modulation

EADPCM - Embedded Adaptive Differential Pulse Code Modulation

ETSI - European Telecommunication Standards Institute

GSM - Global System for Mobile

ITU - International Telecommunication Union

IMA - Interactive Multimedia Association

LD-CELP - Low-Delay Code-Excited Linear Prediction

LPC - Linear Predicative Coding

LSP - Line Spectrum Pair

LTP - Long-Term Prediction

MOS - mean opinion score

MIDI - Musical Instrument Digital Interface

MPLPC - Multi Pulse Linear Predictive Coding

MP-MLQ - Multipulse Maximum Likelihood Quantization

PCELP - predictive code-excited linear prediction

PCM - Pulse Code Modulation

RPE-LTP - Regular Pulse Excitation Long Term Predictor

RPE - LPC - Regular-Pulse Excitation/Linear Predicative Coding

STP - Short-Term Prediction

VSELP - Vector Sum Excited Linear Prediction

АКФ - автокорреляционная функция

АР - авторегрессия

ИКМ - импульсно-кодовая модуляция

ЛАБ - лаборант

ИНЖ - инженер

И.П. - исполнитель-программист

КЕО - коэффициент естественного освещения

НИЛ - научно исследовательская лаборатория

НИР - научно исследовательская работа

ОВПФ - опасные и вредные производственные факторы

ОУ - осветительные устройства

ПОТ - период основного тона

ПС - производственная среда

РФ - решетчатый фильтр

С.Н.С - старший научный сотрудник

СПМ - спектральная плотность мощности

ФОП - фонд оплаты труда

ЧМС - человек-машина-среда

ВВЕДЕНИЕ

Обмен голосовой информацией по сетям передачи данных обретает все большую популярность. Интерес обусловлен более низкой стоимостью международных и междугородных переговоров по сравнению с обычными телефонными сетями. В корпоративных сетях экономия достигается за счет более эффективного использования арендованных каналов связи, по которым можно передавать не только данные, но и голос (естественно, в цифровом формате).

Сегодня появляются все новые и новые конфигурации систем передачи на базе разнородного оборудования. Многие стараются оптимизировать создаваемые системы передачи по различным критериям - цене, набору "высоких технологий", компактности аппаратных средств, удобству эксплуатации и другим.

При разработке любой новой технологии исследователи должны добиваться технологического совершенства, с одной стороны, и низкой стоимости реализации - с другой. Применительно к методам кодирования речи понятие совершенства подразумевает высокое качество сигнала и малую временную задержку. Стоимость реализации определяют такие факторы, как общая сложность системы и скорость битового потока, необходимая для достижения определенного качества сигнала.

Для того чтобы грамотно выбрать речевой кодек, достаточно представления об используемом в нем методе (на котором базируется алгоритм кодирования) и о процессе согласования сигнала, полученного после цифровой обработки (оцифровки), с цифровым каналом связи.

Данным проектом рассматривается кодирование речевого сигнала методом CELP (Сode Excited Linear Prediction), стандарт G.723.1, поскольку, согласно MOS (mean opinion score - средняя субъективная оценка), этот стандарт является наиболее предпочтительным среди существующих методов кодирования с точки зрения соотношения качество речи / скорость потока.

Разработка вопросов охраны труда является логичным и обоснованным продолжением основной части пояснительной записки дипломной работы. Проектирование лабораторного макета невозможно без рассмотрения условий эксплуатирования данного устройства. Целью раздела пояснительной записки "Разработка вопросов охраны труда" является анализ опасных и вредных факторов. Из них выбирается наиболее опасный фактор , влияющий на работу и жизненную деятельность обслуживающего персонала .С их помощью разрабатываются мероприятия и рассчитываются средства защиты направленные на обеспечение нормальных условий. Указываются меры по пожарной безопасности

1. ОБЗОР ИСТОЧНИКОВ И АНАЛИЗ СОСТОЯНИЯ ВОПРОСА

1.1 Критерий разработки кодирующих устройств

При разработке любой новой технологии исследователи должны добиваться технологического совершенства, с одной стороны, и низкой стоимости реализации - с другой. Применительно к методам кодирования речи понятие совершенства подразумевает высокое качество сигнала и малую временную задержку. Стоимость реализации определяют такие факторы, как общая сложность системы и скорость битового потока, необходимая для достижения определенного качества сигнала.

Сегодня появляются все новые и новые конфигурации систем передачи на базе разнородного оборудования. Возникает задача согласования компонентов оборудования, необходимого для заданных схем организации связи. При этом многие стараются оптимизировать создаваемые системы передачи по различным критериям - цене, набору "высоких технологий", компактности аппаратных средств, удобству эксплуатации и другим.

Для того чтобы грамотно выбрать речевой кодек, достаточно представления об используемом в нем методе (на котором базируется алгоритм кодирования) и о процессе согласования сигнала, полученного после цифровой обработки (оцифровки), с цифровым каналом связи.

Человек различает звук в диапазоне от 20 Гц до 20 кГц, но необходимый для восприятия речи диапазон существенно уже. Подавляющая часть информации при разговоре передается на частотах до 4 кГц. Для точного восстановления аналогового сигнала приемником передающая сторона должна брать отсчеты не менее двух раз за период максимальной частоты (теорема Котельникова - Найквиста). Принимая максимальную частоту равной 4000 Гц и 8-разрядное представление амплитуды, получим, что после преобразования в цифровую форму передача голоса требует пропускной способности:

2 (отсчет/период) * 4000 (период/с) * 8 (бит) = 64 000 (бит/с).

Это достаточно широкий цифровой канал, требующий существенных капиталовложений. А при необходимости одновременного установления нескольких голосовых соединений первоначальные затраты пропорционально возрастают. Поэтому голос чаще всего передается в сжатом виде.

Компрессионные алгоритмы условно разделяют на сжимающие без потерь (так называемые конструктивные) и с потерями (или деструктивные) качества. Поскольку сжатие без потерь не слишком эффективно в отношении голосовой информации, наибольшее распространение получили деструктивные алгоритмы. Они обеспечивают высокие степени сжатия (до 12-13 раз по сравнению с несжатым голосом) при незначительной потере качества. Наиболее популярны алгоритмы с “линейным предсказанием”, использующие сплайн-функции первого порядка для аппроксимации исходного сигнала (серии CELP и SELP): ACELP (G.723.1a) - 5,3 кбит/с, СS-ACELP (G.729) - 8 кбит/с, СV-SELP - 8 и 16 кбит/с, LD-CELP. Хорошее качество при высоких степенях компрессии обеспечивают также алгоритмы серии MP-MLQ (Multipulse Maximum Likelihood Quantization), в частности алгоритм G.723.1b - 6,3 кбит/с.

1.2 Кодирование PCM

Международный стандарт кодирования для передачи речи в телефонном канале PCM был принят ITU (International Telecommunication Union, Международный телекоммуникационный союз) в 1960 г. под названием G.711 в качестве международного стандарта кодирования речи для телефонного канала. Временной интервал для PCM со скоростью 64 Кбит/с формирует базовый строительный блок для современных общественных телефонных служб и оборудования, такого как мультиплексоры каналов.

Термин PCM (Pulse Code Modulation, импульсно-кодовая модуляция ИКМ) был впервые использован при разработке стандарта передачи цифрового аудио. PCM не относится к какому-либо виду сжатия, он отображает квантование и дискретизацию аналогового сигнала. Диапазон значений, которых может достигнуть сигнал (диапазон квантования) разделяется на сегменты, каждому из которых присваивается уникальное кодовое слово (последовательность бит). При оцифровке сигнала каждому его значению ставится в соответствие кодовое слово сегмента, в который он попал. Значения сигнала берутся через одинаковые интервалы времени, т.о. весь сигнал во времени может быть записан как последовательность бит.

Ниже представлен пример PCM-кодирования при 7 уровнях квантования и 11 значениях дискретизации (рисунок 1.1):

Квантование и дискретизация сигнала Восстановление сигнала

0

000

1

001

2

010

3

011

4

100

5

101

6

110

7

111

Рисунок 1.1 - PCM-кодирование

Один из способов компрессии - уменьшение уровней квантования, например соединением двух соседних сегментов в один. Сигнал по-прежнему имеет похожий контур, но шум квантования значительно больше.

Сжатый сигнал кодируется последовательностью: 10 11 11 00 01 10 11 10 01 01 10, всего 22 бита, т.е. сжатие составило 1,5:1. Похожий метод используется в стандарте сжатия A-Law.

Второй основной метод сжатия - уменьшение количества уровней дискретизации, например замена двух соседних значений одним средним, таким образом частота дискретизации уменьшается вдвое, что приводит к потере высоких частот в сигнале (рисунок 1.2):

Рисунок 1.2 - Уменьшение количества уровней дискретизации при PCM-кодировании

Хотя PCM-сигнал со скоростью 64 Кбит/с и гарантирует качество речи аналогового телефонного сигнала, ограниченная общая ширина канала, особенно в спутниковых и радиочастотных системах, вынуждает снижать скорость битовых потоков, отводимых для каждого речевого сигнала. С этой точки зрения весьма эффективны алгоритмы сжатия речи, дополняющие PCM-кодирование математическими функциями, такими как фильтры, квантизаторы и предсказатели. Они манипулируют PCM-сигналом так, чтобы передавать его более эффективным способом, обеспечивая тем не менее точное воспроизведение сигнала на приемном конце.

С возрастанием потребностей в пропускной способности канала были разработаны новые технологии сжатия речи с целью минимизировать скорость передачи цифровых потоков с сохранением приемлемых качества сигнала, сложности реализации алгоритма и временных задержек.

1.3 Кодирование DPCM

DPCM (Differential PCM) - дифференциальная ИКМ. В данном методе кодовые слова отображают не значения уровней сигнала, а разницу между ними. Например, при оцифровке одной линии в изображении с использванием DPCM кодовым словом может являться различие в яркости между текущей точкой и соседней слева. Существует множество типов сигналов с малыми различиями в соседних уровнях. Если к ним применить DPCM, то кодовые слова, содержащие разницу в уровнях, будут встречаться гораздо чаще, чем другие, а значит и лучше сжиматься.

DPCM это простеший пример кодирования с предсказанием, так как фактически происходит предсказание следующего значения на основании текущего. Если предсказание верно, то в результате образуется очень короткое кодовое слово, иначе оно будет длиннее чем в “чистом” PCM.

Типичным примером сигнала, хорошо поддающимся DPCM кодированию, является фотоизображение, которое в основном содержит плавные переходы тона. Другой пример - аудио сигнал с узкополосным спектром.

Ниже представлены 2 гистограммы (уровень/количество в изображении) одного изображения, закодированного с помощью PCM и DPCM (рисунок 1.3).

Диапазон кодовых слов значительно меньше, таким образом можно добиться постоянного коэффициента сжатия. На практике DPCM обычно используется совместно с одним из видов сжатия с потерями, например в JPEG, или Adaptive (адаптивная) DPCM - широко распространенный метод сжатия звуковых сигналов. В данном методе размер шага квантования адаптируется к текущей скорости изменения сжимаемого сигнала (метод основан на том, что в аналоговом сигнале, передающем речь, невозможны резкие скачки интенсивности, поэтому если кодировать не саму амплитуду сигнала, а ее изменение по сравнению с предыдущим значением, то можно обойтись меньшим числом разрядов). Существует несколько видов ADPCM, одним из самых распространенных является стандарт IMA ADPCM (Interactive Multimedia Association), который определяет сжатие PCM с 16 до 4 бит на уровень в реальном масштабе времени. Преимуществом метода является минимальная загрузка процессора, недостаток - слабо различимый шум квантования и средняя степень сжатия 4:1.

Размещено на http://www.allbest.ru/

Размещено на http://www.allbest.ru/

Рисунок 1.3 - Распределение уровней при PCM и DPCM кодировании

Метод адаптивной дифференциальной импульсно-кодовой модуляции ADPCM, принятый в качестве стандарта в 1984 г. под названием G.726, воспроизводит речь почти с такой же субъективной оценкой качества, как и PCM, используя только 32 Кбит/с.

ADPCM является основой стандарта ITU G.727, который определяет преобразование речи методом EADPCM - Embedded Adaptive Differential Pulse Code Modulation (вложенная адаптивная дифференциальная импульсно-кодовая модуляция). Согласно данному стандарту, речевой сигнал преобразуется в цифровой вид методом АДИКМ. Затем формируется речевой кадр, состоящий из блоков бит, причем первый блок содержит старшие биты всех закодированных отсчетов, второй блок - следующие по убыванию старшинства биты и т.д. В пределах блока, биты упорядочиваются согласно номеру отсчета, который они определяют. Особенность этого метода заключается в том, что некритичная к удалению информация расположена в позициях, где она может быть легко отвергнута (в конце кадра).

PCM и ADPCM - методы кодирования волновой функции речевого сигнала. Это означает, что они рассматривают входной речевой сигнал как чисто аналоговый. Однако для получения высокого качества сигнала при скоростях ниже 32 Кбит/с такое кодирование неэффективно. Природа человеческой речи и ее восприятия должна быть учтена в алгоритме кодирования.

1.4 LPC кодеры

Все методы кодирования, основанные на определенных предположениях о форме сигнала, не подходят при передаче сигнала с резкими скачками амплитуды. Именно такой вид имеет сигнал, генерируемый модемами или факсимильными аппаратами, поэтому аппаратура, поддерживающая сжатие, должна автоматически распознавать такие сигналы и обрабатывать их иначе, чем речевой трафик. Преобразование речевого сигнала методом ADPCM дает хорошее качество воспроизведения речи на скоростях до 32 кбит/c. Уменьшение скорости ведет к существенному ухудшению качества речи.

Наиболее эффективными являются кодеры на основе метода линейного предсказания речи (linear predictive coding - LPC). Кодеры данного типа работают уже с целыми блоками подготовленных отсчетов. Для каждого блока алгоритм LPC вычисляет и передает частоту основного тона, его амплитуду, флаг речевого или неречевого происхождения сигнала и другие параметры. Затем из значений этих параметров формируется речевой кадр, готовый для передачи. При таком подходе к кодированию речи, во-первых, возрастают требования к вычислительным мощностям, а во-вторых, увеличивается задержка при передаче, поскольку кодирование применяется не к отдельным значениям, а к некоторому их набору, который перед началом преобразования следует накопить в определенном буфере.

Первые реализации LPC, такие как LPC-вокодер, способствовали передаче данных на низких скоростях - 2,4 и 4,8 Кбит/с. На скорости 2,4 Кбит/с обеспечивается приемлемый уровень разборчивости речи, но качество, естественность и распознаваемость недостаточны. И поскольку этот метод сильно зависит от точного воспроизведения человеческой речи, его реализации, такие как LPC-вокодер, не подходят для сигналов неречевого происхождения, попадающих в голосовую полосу частот.

Более сложные методы сжатия речи основаны на применении метода линейного предсказания речи в сочетании с элементами кодирования формы сигнала. В этих алгоритмах используется кодирование с обратной связью, когда при передаче сигнала осуществляется оптимизация кода (алгоритмы используют замкнутый LPC-кодер, называемый также "анализ через синтез" - analysis-by-synthesis - AbS). Закодировав сигнал, процессор пытается восстановить его форму и сравнивает результат с исходным сигналом, после чего начинает варьировать параметры кодирования, добиваясь наилучшего совпадения. Достигнув такого совпадения, аппаратура передает полученный код по линиям связи. На противоположном конце происходит восстановление речевого сигнала. Ясно, что для использования такого метода требуются еще более серьезные вычислительные мощности.

1.5 Кодирование GSM 6.10

Данный метод сжатия является частью телекоммуникационного протокола GSM (Global System for Mobile), самого популярного протокола для цифровых мобильных телефонов в Европе. GSM является телефонным стандартом, определенным Европейским Институтом Телекоммуникационных Стандартов (European Telecommunication Standards Institute ETSI). Для сжатия звука используется часть стандарта, относящаяся к сжатию речи GSM 06.10 RPE-LTP “Regular Pulse Excitation Long Term Predictor” - метод регулярного импульсного возбуждения (Regular Pulse Excitation - RPE), используемый в европейских сотовых системах на 13,2 Кбит/с

Исходными данными для GSM являются кадры из 160 знаковых 13-битных линейных PCM значений при частоте 8 кГц. Один кадр составляет 20 мс, что примерно равно одному гортанному периоду звучания речи человека с низким голосом, или 10 периодам с высоким. Это достаточно короткий промежуток времени, во время которого голосовая волна изменяется несильно. Время кодирования в сумме с длиной кадра определяют задержку обработки при общении.

Кодировщик сжимает исходный кадр из 160 значений в один кадр размером 260 бит. Секунда речи при этом составляет 1625 байт, мегабайт сжатой информации содержит 10 минут речи.

Кодек состоит из двух типов фильтров - STP (short-term predictor) линейно-предсказывающий коротковременной фильтр, и LTP (long-term predictor) длинновременной. Выходные данные фильтров зависят не только от одного входного значения, но и от предыдущего состояния: когда последовательность значений проходит через фильтр, он возбуждается ею. Упаковщик GSM 6.10 моделирует анатомическую систему речи человека с помощью двух фильтров и начального возбуждения. STP, который является первой стадией обработки при сжатии и последней при распаковке, выполняет роль голосового и носового тракта. Он возбуждается выходом длинновременного предсказывающего фильтра LTP, который преобразует свои входные данные - возбуждение остаточным импульсом RPE - в смесь гортанной волны и безголосового шума.

Линейное предсказание состоит в том, что когда фильтр возбуждается неизвестной смесью гортанной волны и шума, он синтезирует речь, которая должна сжиматься. Фильтр предсказывает свои выходные данные в виде взвешенных сумм (линейной комбинации) предыдущих выходных данных. Для каждого кадра, состоящего из значений речевого сигнала S[], вычисляется массив весов LPC[P] таких, что S[n] примерно равно LPC[0]*S[n-1]+LPC[1]*S[n-2]+…+LPC[P-1]*S[n-P] для всех значений S[n]. Количество весов P обычно лежит в пределах 8..14, в GSM используется P=8.

При коротковременном анализе кодирования вычисляется остаточный сигнал, который будет возбуждать коротковременную стадию синтеза при декодировании, в виде блоков из 40 значений. Процедура LTP анализа масштабирует данные значения, вычитает их из исходного сигнала и проводит ряд дополнительных стадий обработки. Декодирование происходит в обратном порядке - сигнал проходит через LTP фильтр, затем через STP, в результате чего происходит синтез речи.

Таким образом, кодек GSM 6.10 (Microsoft) предоставляет сжатие в реальном времени, хорошее качество и слышимость восстановленной после кодирования речи, и достаточную степень компрессии примерно 6:1.

1.6 Кодирование CELP

В последнее время большую популярность приобрели кодеры CELP (Сode Excited Linear Prediction), разновидностями которых являются SELP, LD-CELP, V-CELP и A-CELP. Эти высокоэффективные кодеры обеспечивают отличное качество звука при низких скоростях (2,4-8 кбит/с). Для кодирования погрешности предсказания в них используются кодовые книги, состоящие из блоков с конечным числом символов. Перечисленные разновидности кодеров различаются способами формирования и хранения этих последовательностей. Чаще всего последовательность хранится в сжатом виде. Дополнительные буквы в названии кодера (LD, V и др.) указывают на способ реализации предсказателя, синтеза квантователя или кодовой книги.

Одной из самых распространенных разновидностей кодирования является метод LD-CELP - Low-Delay Code-Excited Linear Prediction (метод линейного предсказания с кодовым возбуждением и низкой задержкой). Он позволяет достичь удовлетворительного качества воспроизведения при пропускной способности 16 кбит/с. Этот метод был стандартизован ITU в 1992 г. как алгоритм кодирования речи G.728. Алгоритм применяется к цифровой последовательности, получаемой в результате аналого-цифрового преобразования речевого сигнала с 16-разрядным разрешением.

Широкое распространение для различных приложений получило и множество нестандартных методов кодирования, в частности варианты адаптивного кодирования с предсказанием (adaptive predictive coding - APC), разработанные в лабораториях компании Bell; метод линейного предсказания с векторным возбуждением (vector-sum-excited linear prediction - VSELP), предложенный фирмой Motorola в качестве стандарта для цифровых сотовых систем США, работающих на скорости 8 Кбит/с; метод линейного предсказания с предиктивным кодовым возбуждением (predictive code-excited linear prediction - PCELP), созданный DSP Group в 1992 г. и встроенный фирмой RAD Data Communications в модульные мультиплексоры доступа.

1.7 Кодирование MP-MLQ

Если не учитывать критерии сложности и задержки, то главные достижения в кодерах сигналов таковы: улучшение качества сигнала при определенной скорости и получение заданного качества сигнала при низких скоростях. Для коммерческих приложений, где качество передачи речи, характерное для PCM, служит эталоном, следует особо выделить задачу получения приемлемого звучания на все более низких скоростях. Это особенно важно для кодирующих устройств в беспроводных телекоммуникационных системах, которые используют ограниченные по пропускной способности радиочастотные и спутниковые каналы.

В марте 1995 г. Международный союз по электросвязи (International Telecommunications Union - ITU) выбрал метод сжатия речи для своих будущих стандартов в области мультимедиа и видеотелефонов, подключаемых к коммутируемым телефонным сетям. Стандарт сжатия G.723 частично базируется на новом методе сжатия речи (Multipulse Maximum Likelihood Quantization - MP-MLQ), разработанном израильской фирмой AudioCodes, создателем передовых речевых и факсимильных технологий, и ее корпоративным партнером - американской фирмой DSP Group.

Метод MP-MLQ относится к семейству алгоритмов AbS. Речевой кодер MP-MLQ использует LPC-анализатор 10-го порядка и работает на скоростях 4,8; 6,4; 7,2 и 8,0 Кбит/с. Его структура поддерживает перепрограммирование "на лету" для одной или нескольких скоростей. Масштабируемость алгоритма MP-MLQ позволяет разрабатывать производные реализации для скоростей вплоть до 4,0 Кбит/с и более низких коммуникационных задержек (до 20 мс), осуществлять кодирование на нескольких скоростях и с переменной скоростью, выполнять многоканальную обработку (благодаря низкой вычислительной нагрузке - менее 10 MIPS) и достигать высокого качества на 8 Кбит/с.

1.8 Оценка качества сигнала

Поскольку человек как получатель информации является ключевым элементом любой телекоммуникационной системы, качество сигнала оценивается по его субъективному восприятию речи. Качество сигнала измеряется часто по пятибалльной шкале MOS (mean opinion score - средняя субъективная оценка). Оценка по шкале MOS определяется путем обработки оценок, даваемых группами слушателей нескольким речевым сигналам, воспроизводимым различными громкоговорителями. Каждый слушатель выносит оценку каждого сигнала: 1 - плохо, 2 - слабо, 3 - разборчиво, 4 - хорошо, 5 - отлично. Затем результаты усредняются.

Таблица 1.1 - Показатели MOS основных алгоритмов кодирования речи

Название алгоритма

MOS

G.711 (PCM; 64 кбит/c)

4,1

G.726 (ADPCM; 32 кбит/c)

3,8

G.728 (LD-CELP; 16 кбит/c)

3,6

G.723.1 (ACELP; 5,3 кбит/c)

3,7

G.723.1 (MP-MLQ; 6,3 кбит/c)

3,9

Наиболее предпочтительным среди приведенных методов кодирования с точки зрения соотношения качество речи / скорость потока является алгоритм G.723.1 (Таблица 1.1).

2. ТЕОРЕТИЧЕСКИЙ АНАЛИЗ ИССЛЕДУЕМОГО ВОПРОСА

2.1 Постановка проблемы, формулировка задачи

На настоящее время существует большое количество алгоритмов и групп алгоритмов, которые, так или иначе, решают основную задачу кодирования речи методом “Анализ через синтез”. Основной вклад сделан такими исследователями как: Голд Б. (Gold B.), Рабинер Л. (Rabiner L.R.), Бартлетт M. (Bartlett M.S.) Однако каждый из алгоритмов имеет свою область приложения. Например, градиентные адаптивные авторегрессионные методы не могут быть применены к обработке данных с быстро меняющимся во времени спектром. Классические методы имеют широкую область применения, но проигрывают авторегрессионным и методах, основанных на собственных значениях, по качеству оценивания. Но в реальном масштабе времени использование последних затруднено из-за вычислительной сложности.

Более того, применение каждого из методов обычно требует выбора значений параметров (выбор окна данных и корреляционного окна в классических методах, порядка модели в авторегрессионном алгоритме и алгоритме линейного предсказания) и правильный выбор требует экспериментальных результатов с каждым классом алгоритмов.

Таким образом, имеется следующая задача: на основе существующих алгоритмов проанализировать возможность их применения как к последовательной обработке сигналов в реальном времени, так и к блочной обработке и оценить качество получаемых результатов. Критериями «качества» оценки является сравнение сигнала на основе полученных графических и звуковых результатов проделанной работы. В идеальном варианте они должны бать сопоставимы с исходниками, т.е. теми сигналами, которые были поданы на вход нашего проектного программного устройства.

Из вышесказанного сформулируем следующие подзадачи:

a) теоретическое и практическое исследование алгоритмов блочной обработки;

б) анализ классических алгоритмов блочной обработки всей последовательности;

с) анализ алгоритмов обработки сигналов в реальном масштабе времени.

Кроме этих теоретических проблем, существует ряд практических вопросов, специфичных для обработки сигналов в реальном времени. Среди них выделим:

Необходимость в «одновременном» выполнении следующих основных этапов обработки данных:

а) непосредственное получение последовательности входных данных (цифровые отсчеты аудио-сигнала, речевого сигнала);

б) обработка получаемых отсчетов сигнала;

в) представление обработанной информации;

г) возможность контролировать процесс обработки информации.

Ограничение длительности интервала выборки поступающих данных вычислительными ресурсами

Ограничение длительности интервала выборки характером сигнала

Если первый вопрос очевиден в рамках обработки данных в реальном времени, то второй и третий вопросы требуют осмысления причин этих ограничений.

Экспериментальные входные данные будем формировать следующим образом:

а) для анализа классических алгоритмов блочной обработки всей последовательности в части применения окон данных и корреляционных окон эксперимент и подсчет основных характеристик окон будем производить над дискретизированными отсчетами соответствующих функций;

б) для анализа алгоритмов обработки сигналов в реальном масштабе времени используем аудио и речевой сигналы.

Выходными данными экспериментов будем считать:

а) для задачи анализа алгоритмов блочной обработки всей последовательности отсчетов:

1) оценку спектра сигнала, по которому можно судить о качестве применяемого метода, сравнивая истинный спектр сформированного сигнала с полученной оценкой;

2) вычислительные и временные затраты метода;

б) для анализа сигналов в реальном масштабе времени: спектральная плотность мощности (функция, зависящая в этом эксперименте также и от времени). Для оценки составляющих в спектре сигнала в данный момент времени.

2.2 Теоретический анализ существующих алгоритмов спектра

2.2.1 Задача спектрального оценивания

Задача спектрального оценивания подразумевает оценивание некоторой функции частоты. О характеристиках спектральной оценки судят по тому, насколько хорошо она согласуется с известным спектром тест-сигнала в некоторой непрерывной области частот.

Спектральная оценка, получаемая по конечной записи данных, характеризует некоторое предположение относительно той истинной спектральной функции, которая была бы получена, если бы в нашем распоряжении имелась запись данных бесконечной длины. Именно поэтому поведение и характеристики спектральных оценок должны описываться с помощью статистических терминов. Общепринятыми статистическими критериями качества оценки являются ее смещение и дисперсия. Аналитическое определение этих величин обычно наталкивается на определенные математические трудности, поэтому на практике просто совмещают графики нескольких реализаций спектральной оценки и визуально определяют смещение и дисперсию как функции частоты. Те области совмещенных графиков спектральных оценок, где экспериментально определенное значение дисперсии велико, будут свидетельствовать о том, что спектральные особенности, видимые в спектре отдельной реализации, не могут считаться статистически значимыми. С другой стороны, особенности совмещенных спектров в тех областях, где эта дисперсия мала, с большой достоверностью могут быть соотнесены с действительными частотными составляющими анализируемого сигнала. Однако в случае коротких записей данных часто не удается получить несколько спектральных оценок, да и сам статистический анализ отдельных спектральных оценок, полученных по коротким записям данных, в общем, случае представляет собой весьма трудную проблему.

2.2.2 Авторегрессионное спектральное оценивание

Одна из причин применения параметрических моделей случайных и процессов и построения на их основе методов получения оценок спектральной плотности мощности обусловлена увеличением точности оценок по сравнению с классическими методами. Еще одна важная причина - более высокое спектральное разрешение. Далее рассматриваются следующие методы: метод Юла-Уалкера оценивания авторегрессионных параметров по последовательности оценок автокорреляционной функции и метод Берга оценивания авторегрессионных параметров по последовательности оценок коэффициентов отражения.

Модель временного ряда (называемая модели авторегрессии-скользящего среднего (АРСС) в случае входной последовательности - белого шума), которая пригодна для аппроксимации многих встречающихся на практике детерминированных и стохастических процессов с дискретным временем, описывается следующим разностным уравнением

. (2.1)

Системная функция , связывающая вход и выход этого фильтра имеет рациональную форму

. (2.2)

Если в качестве входной последовательности использовать белый шум, то приходим к АРСС-модели. Спектральную плотность для АРСС-модели получаем, подставляя , что дает

, (2.3)

где ,

, , а - дисперсия

возбуждающего белого шума

В частных случаях для авторегрессионной модели и модели скользящего среднего получаем соответственно

, (2.4)

. (2.5)

2.2.2.1 Оценивание корреляционной функции - метод Юла-Уалкера

Из соотношения, связывающего параметры АРСС-модели с порядком авторегрессии p и скользящего среднего q

. (2.6)

Поскольку полагается, что u[k] - белый шум, то

, , (2.7)

, m>q, (2.8)

, m<0. (2.9)

В частном случае для авторегрессионных параметров, получаем

, , (2.10)

, m=0, (2.11)

, m<0. (2.12)

В матричном виде эти соотношения выглядят следующим образом

. (2.13)

Таким образом, если задана автокорреляционная последовательность для , то АР-параметры можно найти в результате решения последнего матричного соотношения (называемого нормальными уравнениями Юла-Уалкера).

Наиболее очевидным подходом к авторегрессионному оцениванию является решение нормальных уравнений Юла-Уалкера, в которые вместо значений неизвестной автокорреляционной функции подставляем их оценки.

2.2.2.2 Методы оценивания коэффициентов отражения

Рекурсивное решение уравнений Юла-Уалкера методом Левинсона связывает АР-параметры порядка p c параметрами порядка p-1 выражением

, где n=1,2,..p-1. (2.14)

Коэффициент отражения определяется по известным значениям автокорреляционной функции

, (2.15)

, где . (2.16)

Из всех величин только непосредственно зависит от автокорреляционной функции. В разное время предлагалось несколько различных процедур оценки коэффициента отражения, рассмотрим некоторые из них.

2.2.2.3 Геометрический алгоритм

Ошибки линейного предсказания вперед и назад определяются соответственно следующими выражениями

, (2.17)

. (2.18)

Рекурсивные выражения, связывающие ошибки линейного предсказания моделей порядков p и p-1, определяются простой подстановкой и в рекурсивное соотношение для авторегрессионных параметров

, (2.19)

. (2.20)

Несложно показать, что коэффициент отражения обладает следующим свойством (является коэффициентом частной корреляции между ошибками линейного предсказания вперед и назад)

. (2.21)

Используя оценки взаимной корреляции и автокорреляции ошибок предсказания вперед и назад, получим

. (2.22)

Таким образом, геометрический алгоритм использует алгоритм Левинсона, в котором вместо обычного коэффициента отражения, вычисляемого по известной автокорреляционной функции, используется его оценка

Окончательный вид выражений геометрического алгоритма

, где n=1,2,..p-1 , (2.23)

, (2.24)

, , (2.25)

, (2.26)

, где . (2.27)

2.2.2.4 Гармонический алгоритм Берга

Алгоритм Берга идентичен геометрическому, однако оценка коэффициента отражения находится из других соображений, а именно: при каждом значений параметра p в нем минимизируется арифметическое среднее мощности ошибок линейного предсказания вперед и назад), есть выборочная дисперсия ошибки предсказания)

. (2.28)

Приравнивая производные к нулю, имеем оценку для

. (2.29)

Некоторым обобщением является взвешивание среднего квадрата ошибки предсказания для уменьшения частотного смещения, наблюдаемого при использовании базового метода Берга

, (2.30)

что приводит к следующей оценке

. (2.31)

2.3 Рассмотрение вопросов анализа и способа обработки речевых сигналов

2.3.1 Речевой сигнал

Рассмотрев алгоритмы решения поставленной задачи, углубимся в теорию описания исследуемого вида сигнала. Речь предназначена для общения. Возможности речи с этой точки зрения можно характеризовать по-разному. Один из количественных подходов основан на теории информации, разработанной Шенноном. В соответствии с этой теорией речь можно описать ее информационным содержанием или информацией.

Другой способ описания речи заключается в представлении ее в виде сигнала, т. е. акустического колебания. Хотя идеи, теории информации играют важную роль при построении сложных систем связи, Наиболее полезными на практике являются представления речи в виде колебания или в виде некоторой параметрической модели. Речевое общение начинается с того, что в мозгу диктора возникает в а6страктной форме некоторое сообщение. В процессе речеобразования это сообщение преобразуется в речевое колебание. Информация, содержащаяся в сообщении, представлена в акустическом колебании весьма сложным образом. Сообщение сначала преобразуется в последовательности нервных импульсов, управляющих артикуляторным аппаратом (т. е. перемещением языка, губ, голосовых связок и т. д.). В результате воздействия нервных импульсов артикуляторный аппарат приходит в движение, результатом которого является акустическое речевое колебание, несущее информацию об исходном сообщении. Сообщение, передаваемое с помощью речевого сигнала, является дискретным, т. е. может (быть представлено в виде последовательности символов из конечного их числа. Символы, из которых составлен речевой сигнал, называются фонемами. В каждом языке имеется присущее ему множество фонем, обычно от 30 до 50. Например, в английском языке можно выделить 42 фонемы.

Особый интерес представляет оценка скорости передачи информации, содержащейся в речевом сигнале. Грубая оценка получается из того, что физические ограничения на перемещение элементов артикуляторного аппарата позволяют человеку произносить в среднем 10 фонем в секунду. Если фонемы представить числами в двоичной системе счисления, то для всех фонем английского языка более чем достаточно шестизначного двоичного кода. Принимая среднюю скорость произнесения равной 10 фонемам в секунду и пренебрегая корреляцией между соседними фонемами, получим, что скорость передачи информации составляет 60 бит/с. Другими словами, при нормальном темпе произнесения письменный эквивалент речевого сигнала содержит 60 бит/с. Эта оценка, однако, не учитывает таких факторов, как индивидуальность и эмоциональное состояние диктора, скорость произнесения, громкость речи и т. д.

В системах речевой связи сигнал передается, хранится и обрабатывается различными способами. Задачи техники обусловливают применение различных форм представления речевого сигнала, Однако во всех случаях им присущи следующие особенности:

1) сохранение информационного содержания речевого сигнала;

2) представление речевого сигнала в форме, удобной для передачи и хранения, или в виде, позволяющем легко, и достаточно гибко (преобразовывать речевой сигнал без существенных информационных потерь. Представление речевого сигнала должно быть таким, чтобы его информационное содержание легко воспринималось автоматически с помощью машины или при прослушивании человеком. Представление речевого сигнала (но не его информационного содержания) может потребовать от 500 до. 106 бит/с. При разработке способа представления речевого сигнала существенное влияние оказывают методы обработки сигнала.

2.3.2 Обработка сигналов

Задача обработки сигналов схематически представлена на рисунке 2.1. В случае речевых сигналов источником информации является человек.

Измерению или наблюдению обычно подвергается акустическое колебание. Обработка сигнала предполагает в первую очередь формирование описания на основе некоторой модели с последующим преобразованием полученного представления в требуемую форму.

Последним шагом в процессе обработки является выделение и использование информационного содержания сигнала. Этот шаг может осуществляться путем прослушивания сигнала человеком или его автоматической обработки. В качестве примера можно рассмотреть систему идентификации диктора из заданного ансамбля дикторов, в которой используется представление речевого сигнала в виде зависящего от времени спектра. Одним из возможных преобразований сигнала в этих условиях является усреднение спектра по всей фразе, сравнение среднего спектра с эталонами, имеющимися для каждого диктора, и затем выбор соответствующего диктора на основе полученных мер сходства спектров. Для данного примера информационным содержанием сигнала являются признаки индивидуальности диктора. Таким образом, обработка сигнала в общем случае предусматривает решение двух основных задач: получить общее представление сигнала либо в форме речевого колебания, либо в виде параметров и преобразовать полученное представление в более удобную для решаемой задачи форму.

Размещено на http://www.allbest.ru/

Размещено на http://www.allbest.ru/

Рисунок 2.1 - Схема обработки информации

2.3.3 Цифровая обработка речи

При рассмотрении вопросов применения цифровой обработки речевых сигналов к задачам связи полезно сконцентрировать внимание на трех основных направлениях: представлении речевых сигналов в цифровой форме, цифровой реализации аналоговых методов обработки и методах, основанных исключительно на цифровой обработке.

Размещено на http://www.allbest.ru/

Размещено на http://www.allbest.ru/

Рисунок 2.2 - Способы представления речевого сигнала

Представление речевых сигналов в цифровой форме является, конечно, одним из центральных вопросов. По полосе частот сигнал может быть представлен в виде последовательности равноотстоящих отсчетов, взятых с достаточно высокой частотой. Таким образом, процедура дискретизации лежит в основе теории и приложений цифровой обработки. Существует ряд способов дискретного представления речевых сигналов. Как показано на рисунке 2.2, эти способы могут быть разбиты на две большие группы -- цифровое и параметрическое представление речевого колебания. Цифровое представление речевого колебания, как это следует из названия, основано на сохранении формы колебания в процессе дискретизации и квантований. Параметрическое представление базируется на описании речевого сигнала, как выходного отклика модели речеобразования.

Размещено на http://www.allbest.ru/

Размещено на http://www.allbest.ru/

Рисунок 2.3 - Диапазон скоростей передачи при различном представлении речевого сигнала

На первом этапе построения параметрического представления речевое колебание подвергается дискретизации и квантованию, а затем обрабатывается для получения параметров модели. Параметры модели обычно разделяются на параметры возбуждения (относящиеся к источнику звуков речи) и параметры голосового тракта (относящиеся непосредственно к отдельным звукам речи).

На рисунке 2.3 представлены результаты сравнительного анализа различных цифровых представлений по требуемой скорости передачи информации. Пунктирная линия, проходящая через точку 15 кбит/с, отделяет группу цифровых представлений речевого колебания (слева) от параметрических представлений (справа), которые обладают меньшим информационным объемом. Как следует из рисунка, требуемая скорость передачи изменяется от 75 бит/с (что примерно соответствует скорости передачи письменного эквивалента речи) до 200000 бит/с и более при простейшем цифровом представлении речевого колебания. Таким образом, в зависимости от типа цифрового представления сигнала требуемая для его передачи скорость может изменяться примерно в 3000 раз. Конечно, скорость передачи: далеко не единственный фактор, определяющий выбор типа цифрового представления. Другими факторами являются стоимость, гибкость цифрового представления, качество восприятия речи и т. д.

Размещено на http://www.allbest.ru/

Размещено на http://www.allbest.ru/

Рисунок 2.4 - Области применения речевой связи

Наиболее важным фактором, определяющий выбор цифрового представления сигнала и методов цифровой обработки, является специфика решаемой прикладной задачи. На рисунке 2.4 приведено несколько примеров из обширной области передачи и обработки речевых сигналов. Полезно кратко рассмотреть каждый из них для того, чтобы методы обработки были более понятными.

2.3.4 Кодирование речи

Необходимость кодирования речевой информации возникла не так давно, но на сегодняшний момент, в связи с бурным развитием техники связи, особенно мобильной связи, решение этой проблемы имеет большое значение при разработке систем связи.

Одним из наиболее ранних и наиболее важных примеров применения обработки речевого сигнала является вокодер или кодер голоса (voice-coder), созданный Дадли в 1930-х гг. Целью разработки вокодера являлось уменьшение полосы частот, необходимой для передачи речи. Эта задача актуальна и в настоящее время, несмотря на наличие широкополосных спутниковых, СВЧ и оптических систем связи. Кроме того, необходимы дешевые и как можно более низкоскоростные преобразователи речи в цифровую форму для их использования в цифровых телефонных сетях связи. Одной из положительных сторон применения цифровых систем является возможность обеспечения скрытности передачи.

2.3.5 Системы синтеза речи

Большой интерес к системам синтеза речи объясняется необходимостью разработки способа экономического хранения речевого сигнала в системах речевого ответа. Подобная система реализует цифровой алгоритм автоматического сообщения голосом информации, которую запрашивает пользователь с клавиатуры пульта или специального терминала. Поскольку пультом может служить обычный телефонный аппарат с кнопочным набором, система речевого ответа может широко использоваться в коммутируемых телефонных сетях без установки какого-либо дополнительного оборудования.

2.3.5.1 Ограничение на синтез речи

Существуют различные методы синтеза речи. Выбор того или иного метода определяется различными ограничениями. Рассмотрим 4 вида ограничений, которые влияют на выбор метода синтеза.

а) Задача.

Возможности синтезированной речи зависят от того, в какой области она будет применятся. Когда необходимо произносить ограниченное число фраз (и их произнесение линейно не меняется), необходимый речевой материал просто записывается на пленку. С другой стороны, если задача состоит в синтезе речевого сигнала в реальном масштабе времени, используется совершенно другой ряд методик.

б) Голосовой аппарат человека.

Все системы синтеза речи должны производить на выходе какую-то речевую волну, но это не произвольный сигнал. Чтобы получить речевую волну определенного качества, сигнал должен пройти путь от источника в речевом тракте, который возбуждает действие артикуляторных органов, которые действуют как изменяющиеся во времени фильтры. Артикуляторные органы также накладывают ограничения на скорость изменения сигнала. Они также имеют функцию сглаживания: гладкого сцепления отдельных базовых фонетических единиц в сложный речевой поток.

в) Структура языка.

Ряд возможных звуковых сочетаний определяется природой той или иной языковой структуры. Было обнаружено, что единицы и структуры, используемые лингвистами для описания и объяснения языка, могут также использоваться для характеристики и построения речевой волны. Таким образом, при построении выходной речевой волны используются основные фонологические законы, правила ударения, морфологические и синтаксические структуры, фонотактические ограничения.

г) Технология.

Возможности успешно моделировать и создавать устройства для синтеза речи в сильной степени зависят от состояния технико-технологической стороны дела. Речевая наука сделала большой шаг вперед благодаря появлению различных технологий, в том числе: рентгенография, кинематография, теория фильтров и спектров, а главным образом - цифровые компьютеры. С приходом интегральных сетевых технологий с постоянно возрастающими возможностями стало возможно построение мощных, компактных, недорогих устройств, действующих в реальном времени. Этот факт, вместе с основательными знаниями алгоритмов синтеза речи, стимулировал дальнейшее развитие систем синтеза речи и переход их в практическую жизнь, где они находят широкое применение.

2.3.5.2 Методы синтеза

Различные подходы могут быть сгруппированы по областям их применения, по сложности их воплощения.

Синтезаторы делят на два типа: с ограниченным и неограниченным словарем. В устройствах с ограниченным словарем речь хранится в виде слов и предложений, которые выводятся в определенной последовательности при синтезе речевого сообщения. Речевые единицы, используемые в синтезаторах подобного типа, произносятся диктором заранее, а затем преобразуются в цифровую форму, что достигается с помощью различных методов кодирования, позволяющих компрессировать речевую информацию и хранить ее в памяти синтезирующего устройства. Существует несколько методов записи и компоновки речи.

а) Волновой метод кодирования.

Самый легкий путь - просто записать материал на пленку и по необходимости проигрывать. Этот способ обеспечивает высокое качество синтезируемой речи, т.к. позволяет воспроизводить форму естественного речевого сигнала. Однако этот путь синтеза не позволяет реализовать построение новой фразы, т.к. не предусматривает обращение к различным ячейкам памяти и вызов из памяти нужных слов. В зависимости от используемой технологии этот способ может представлять задержки в доступе и иметь ограничения, связанные с возможностями записи. Никаких знаний об устройстве речевого тракта и структуре языка не требуется. Единственно серьезное ограничение в данном случае имеет объем памяти. Существуют способы кодирования речевого сигнала в цифровой форме, позволяющие в несколько раз уплотнять информацию: простая модуляция данных, импульсно-кодовая модуляция, адаптивная дельтовая модуляция, адаптивное предиктивное кодирование. Данные способы могут уменьшить скорость передачи данных от 50кбит/сек (нормальный вариант) до 10кбит/сек, в то время как качество речи сохраняется. Естественно, сложность операций кодирования и декодирования увеличивается со снижением числа бит в секунду. Такие системы хороши, когда словарь сообщений небольшой и фиксированный. В случае же, когда требуется соединить сообщения в более длинное, сгенерировать высококачественную речь трудно, т.к. значения параметров речевой волны нельзя изменить, а они могут не подойти в новом контексте. Во всех системах синтеза речи устанавливается некоторый компромисс между качеством речи и гибкостью системы. Увеличение гибкости неизбежно ведет к усложнению вычислений.

б) Параметрическое представление.

С целью дальнейшего уменьшения требуемой памяти для хранения и обеспечения необходимой гибкости было разработано несколько способов, которые абстрагируются от речевой волны как таковой, а представляют ее в виде набора параметров. Эти параметры отражают наиболее характерную информацию либо во временной, либо в частотной области. Например, речевая волна может быть сформирована сложением отдельных гармоник заданной высоты и заданными спектральными выступами на данной частоте. Альтернативный путь состоит в том, чтобы форму речевого тракта описать в терминах акустики и искусственным путем создать набор резонансов. Этот метод синтеза экономичнее волнового, т.к. требует значительно меньшего объема памяти, но при этом он требует больше вычислений, чтобы воспроизвести исходный речевой сигнал. Данный способ дает возможность манипулировать теми параметрами, которые отвечают за качество речи (значение формант, ширина полос, частота основного тона, амплитуда сигнала). Это дает возможность склеивать сигналы, так что переходы на границах совершенно не заметны. Изменения таких параметров как частота основного тона на протяжении всего сообщения дают возможность существенно изменять интонацию и временные характеристики сообщения. Наиболее популярным в настоящее время методами кодирования в устройствах, использующих параметрическое представление сигналов, является метод, основанный на формантных резонансах и метод линейного предсказания (LPC - linear predictive coding). Для синтеза используются единицы речи различной длины: параграфы, предложения, фразы, слова, слоги, полуслоги, дифоны. Чем меньше единица синтеза, тем меньшее их количество требуется для синтеза. При этом требуется больше вычислений, и возникают трудности коартикуляции на стыках. Преимущества этого метода: гибкость, немного памяти для хранения исходного материала, сохранение индивидуальных характеристик диктора. Требуется соответствующая цифровая техника и знание моделей речеобразования, при этом, лингвистическая структура языка не используется.


Подобные документы

  • Генерирование и сохранение мелодии в виде звукового файла формата wav. Проведение частотного анализа полученного сигнала. Зависимость объема wav-файлов от разрядности кодирования сигнала. Спектр нот записанного wav-файла с заданной разрядностью.

    лабораторная работа [191,0 K], добавлен 30.03.2015

  • Формат звукового файла wav, способ его кодирования. Реализация возможностей воспроизведения звука в среде программирования MATLAB. Составление функциональной схемы программы. Апробирование информационной технологии воспроизведения звуковых файлов.

    курсовая работа [1,2 M], добавлен 13.02.2016

  • Векторный способ записи графических данных. Tехнология сжатия файлов изображений Djvu. Скорость кодирования и размеры сжатых файлов. Сетевые графические форматы. Особенности работы в программе Djvu Solo в упрощенном виде. Разновидности стандарта jpeg.

    реферат [23,5 K], добавлен 01.04.2010

  • Обработка детерминированного сигнала. Классификация измерительных сигналов. Формула исходного сигнала. Построение спектра амплитуд и спектра фаз. Точность спектрального анализа. Нормальный закон распределения. Спектральный анализ случайного сигнала.

    курсовая работа [616,8 K], добавлен 07.07.2013

  • Особенности кодирования информации с помощью метода Хаффмана. Реализация кодера и декодера с использованием статического алгоритма Хаффмана. Структура программы, оценка ее эффективности (степени сжатия) в зависимости от типа и размера сжимаемых файлов.

    курсовая работа [136,2 K], добавлен 15.06.2013

  • Описание метода сжатия информации на основе двоичных кодирующих деревьев Хаффмана. Среда разработки Delphi версии 7.0. Понятия объектно-ориентированного программирования. Программа, разработанная в Delphi. Реализация на Delphi метода кодирования Хаффмана.

    курсовая работа [2,1 M], добавлен 26.03.2013

  • Определение понятий кода, кодирования и декодирования, виды, правила и задачи кодирования. Применение теорем Шеннона в теории связи. Классификация, параметры и построение помехоустойчивых кодов. Методы передачи кодов. Пример построения кода Шеннона.

    курсовая работа [212,6 K], добавлен 25.02.2009

  • Методы восстановления видеоряда при потерях в канале передачи данных. Битовая скорость данных. Клиент-серверная архитектура. Робастная оценка потерь. Внедрение помехоустойчивого кодирования в алгоритм адаптации видеопотока. Метод наложения избыточности.

    дипломная работа [428,5 K], добавлен 22.11.2015

  • Анализ методов сверточного кодирования. Понятие канала связи и корректирующих кодов, характеристика автомата типа Мура. Особенности сверточного декодирования Витерби. Сущность разработки программного обеспечения системы кодирования сверточным кодом.

    дипломная работа [4,9 M], добавлен 11.03.2012

  • Компьютерное кодирование чисел, текста, графики: параметры качества кодирования; аналогово-цифровое преобразование звука. Область применения электронных таблиц; расчет стоимости междугородних телефонных разговоров абонента с применением Microsoft Excel.

    курсовая работа [641,2 K], добавлен 27.04.2013

Работы в архивах красиво оформлены согласно требованиям ВУЗов и содержат рисунки, диаграммы, формулы и т.д.
PPT, PPTX и PDF-файлы представлены только в архивах.
Рекомендуем скачать работу.