Проектирование устройства захвата и аналого-цифрового преобразования речевого сигнала
Уточнение технических и эксплуатационных показателей устройства. Импульсно-кодовая модуляция. Линейное предсказание. Вокодер - один из основных узлов ПО пакетирования речи. Кодирование звука. Структура устройства. Электрическая принципиальная схема.
Рубрика | Коммуникации, связь, цифровые приборы и радиоэлектроника |
Вид | дипломная работа |
Язык | русский |
Дата добавления | 05.11.2012 |
Размер файла | 153,5 K |
Отправить свою хорошую работу в базу знаний просто. Используйте форму, расположенную ниже
Студенты, аспиранты, молодые ученые, использующие базу знаний в своей учебе и работе, будут вам очень благодарны.
Один из старейших алгоритмов сжатия речи ADPCM -- адаптивная дифференциальная ИКМ (стандарт G.726 был принят в 1984 г.). Этот алгоритм дает практически такое же качество воспроизведения речи, как и ИКМ, однако для передачи информации при его использовании требуется полоса всего в 16-32 кбит/с. Метод основан на том, что в аналоговом сигнале, передающем речь, невозможны резкие скачки интенсивности. Поэтому, если кодировать не саму амплитуду сигнала, а ее изменение по сравнению с предыдущим значением, то можно обойтись меньшим числом разрядов. В ADPCM изменение уровня сигнала кодируется четырехразрядным числом, при этом частота измерения амплитуды сигнала сохраняется неизменной. Процесс преобразования не вносит существенной задержки и требует от DSP 5,5-6,4 MIPS (Million Instructions Per Second). Кодек может применяться совместно с кодеком G.711 для снижения скорости кодирования последнего. Кодек предназначен для использования в системах видеоконференций.
Рекомендация G.723.1 описывает гибридные кодеки, использующие технологию кодирования речевой информации, сокращенно называемую -- MP-MLQ (Multy-Pulse -- Multy Level Quantization -- множественная импульсная, многоуровневая квантизация), данные кодеки можно охарактеризовать, как комбинацию АЦП/ЦАП и вокодера. Своим везникновением гибридные кодеки обязаны системам мобильной связи. Применение вокодера позволяет снизить скорость передачи данных в канале, что принципиально важно для эффективного использования радиотракта и IP-канала. Основной принцип работы вокодера -- синтез исходного речевого сигнала посредством адаптивной замены его гармонических составляющих соответствующим набором частотных фонем и согласованными шумовыми коэффициентами. Кодек G.723 осуществляет преобразование аналогового сигнала в поток данных со скоростью 64 кбит/с (ИКМ), а затем при помощи многополосного цифрового фильтра/вокодера выделяет частотные фонемы, анализирует их и передает по IP-каналу информацию только о текущем состоянии фонем в речевом сигнале. Данный алгоритм преобразования позволяет снизить скорость кодированной информации до 5,3-6,3 кбит/с без видимого ухудшения качества речи. Кодек имеет две скорости и два варианта кодирования: 6,3 кбит/с с алгоритмом MP-MLQ и 5,3 кбит/с с алгоритмом CELP. Первый вариант предназначен для сетей с пакетной передачей голоса и обеспечивает лучшее качество кодирования по сравнению с вариантом CELP, но менее адаптирован к использованию в сетях со смешанным типом трафика (голос/данные).
Процесс преобразования требует от DSP 16,4-16,7 MIPS и вносит задержку 37 мс. Кодек G.723.1 широко применяется в голосовых шлюзах и прочих устройствах IP-телефонии. Кодек уступает по качеству кодирования речи кодеку G.729a, но менее требователен к ресурсам процессора и пропускной способности канала.
Семейство включает кодеки G.729, G.729 Annex A, G.729 Annex В (содержит VAD и генератор комфортного шума). Кодеки G.729 сокращенно называют CS-ACELP Conjugate Structure -- Algebraic Code Excited Linear Prediction -- сопряженная структура с управляемым алгебраическим кодом линейным предсказанием. Процесс преобразования использует DSP 21,5 MIPS и вносит задержку 15 мс. Скорость кодированного речевого сигнала составляет 8 кбит/с. В устройствах VoIP данный кодек занимает лидирующее положение, обеспечивая наилучшее качество кодирования речевой информации при достаточно высокой компрессии.
Гибридный кодек, описанный в рекомендации G.728 в 1992 г. относится к категории LD-CELP -- Low Delay -- Code Excited Linear Prediction -- кодек с управляемым кодом линейным предсказанием и малой задержкой. Кодек обеспечивает скорость преобразования 16 кбит/с, вносит задержку при кодировании от 3 до 5 мс и для реализации необходим процессор с быстродействием более 40 MIPS. Кодек предназначен для использования, в основном, в системах видеоконференций. В устройствах IP-телефонии данный кодек применяется достаточно редко.
Таблица 1.4 Характеристики кодеков
Кодек |
Метод компрессии |
Скорость кодирования |
Сложность реализации |
Качество |
Задержка |
|
G.726 |
ADPCM |
32/24/16 кбит/с |
Низкая (8 MIPS) |
Хорошее (32 К), плохое (16 К) |
Очень низкая (0,125 мс) |
|
G.729 |
CS-ACELP |
8 кбит/с |
Высокая (30 MIPS) |
Хорошее |
Низкая (Юме) |
|
G.729A |
CA-ACELP |
8 кбит/с |
Умеренная (20 MIPS) |
Среднее |
Низкая (Юме) |
|
G.723.1 |
MP-MLQ |
6,4/5,3 кбит/с |
Умеренная (16 MIPS) |
Хорошее (6,4), среднее (5,3) |
Высокая (37 мс) |
|
G.728 |
LD-CELP |
16 кбит/с |
Очень высокая (40 MIPS) |
Хорошее |
Очень низкая (3-5 мс) |
Количественными характеристиками ухудшения качества речи являются единицы QDU (Quantization Distortion Units): 1 QDU соответствует ухудшению качества при оцифровке с использованием стандартной процедуры ИКМ; значения QDU для основных методов компрессии приведены в табл. 1.5.
Таблица 1.5 Единицы ухудшения качества речи QDU для различных методов компрессии
Метод компрессии |
QDU |
|
ADPCM 32 кбит/с |
3,5 |
|
ADPCM 24 кбит/с |
7 |
|
LD-CELP 16 кбит/с |
3,5 |
|
CS-CELP 8 кбит/с |
3,5 |
Дополнительная обработка речи всегда ведет к дальнейшей потере качества. Согласно рекомендациям МСЭ-Т, для международных вызовов величина QDU не должна превышать 14, причем передача разговора по международным магистральным каналам ухудшает качество речи, как правило, на 4 QDU. Следовательно, при передаче разговора по национальным сетям должно теряться не более 5 QDU. Поэтому для качественной передачи речи процедуру компрессии/декомпрессии желательно применять в сети только один раз. В некоторых странах это является обязательным требованием регулирующих органов по отношению к корпоративным сетям, подключенным к сетям общего пользования. Подавление пауз (silence suppression) -- важная функция ATM-коммутаторов. Суть технологии подавления пауз заключается в определении различия между моментами активной речи и молчания в период соединения. В результате применения этой технологии генерация ячеек происходит только в моменты активного разговора. Поскольку в процессе типичного разговора по телефону тишина составляет до 60% времени, происходит двукратная оптимизация по количеству данных, которые должны быть переданы по линии. Объединение технологии сжатия речи и подавления пауз речи в коммутаторах приводит к уменьшению потока данных в канале до восьми раз.
Современные продукты для IP-телефонии применяют самые разные кодеки, стандартные и нестандартные. Конкурентами являются кодеки GSM (13,5 кбит/с) и кодеки МСЭ-Т серии G, использование которых предусматривается стандартом H.323 для связи по IP-сети. Единственным обязательным для применения кодеком в H.323-совместимых продуктах остается стандарт G.711: выдаваемые им массивы данных составляют от 56 до 64 кбит/с. В качестве дополнительных высокопроизводительных кодеков стандарт H.323 рекомендует G.723 и G.729 -- последние способны сжимать оцифрованную 16-разрядную ИКМ-речь длительностью 10 мс всего в 10 байт. Стандарт G.729 уже получил широкое распространение в системах передачи голоса по IP; его поддерживают значительное число производителей продуктов для IP-телефонии.
Схема вокодера:
Т-Ш - выделитель сигнала тон-шум
ГОТ - генератор основного тона
ГШ - генератор шума
Вокодеры можно разделить на два класа:
- речеэлементные;
- параметрические.
В речеэлементных вокодерах при кодировании распознаются произносимые элементы речи (например, фонема) и на выход кодера подаются только их номера. В декодере эти элементы создаются по правилам речеобразования или берутся из памяти декодера. Фонемные вокодеры предназначены для получения предельной компрессии речевых сигналов. Область применения фонемных вокодеров - линии командной связи, управление и говорящие автоматы информационно-справочной службы. В таких вокодерах происходит автоматическое распознавание слуховых образов, а не определение параметров речи и, соответственно, теряются все индивидуальные особенности диктора. Компрессия речевых сигналов в кодере осуществляется в анализаторе, который выделяет с речевого сигнала параметры, которые медленно меняются. В декодере при помощи местных источников сигналов, которые управляются принятыми параметрами, синтезируется речевой сигнал.
В параметрических вокодерах с речевого сигнала выделяют два типа параметров и по этим параметрам в декодере синтезируют речь:
- Параметры, которые характеризуют источник речевых колебаний (генераторную функцию) - частота основного тона, ее изменение во времени, моменты появления и исчезновения основного тона (огласованные или гортанные звуки), шумового сигнала (шипящие и свистящие звуки);
- Параметры, которые характеризуют огибающую спектра речевого сигнала.
В декодере, соответственно, по заданным параметрам генерируются основной тон, шум, а затем пропускаются через гребенку полосовых фильтров для восстановления огибающей спектра речевого сигнала.
По принципу определения параметров фильтровой функции различают вокодеры:
- полосные (канальные);
- формантные;
- ортогональне.
В полосных вокодерах спектр речи делится на 7 - 20 полос (каналов) аналоговыми или цифровыми полосовыми фильтрами. Большее число каналов в вокодере дает большую натуральность и разборчивость. С каждого полосового фильтра сигнал поступает на детектор для определения среднего уровня. В формантных вокодерах огибающая спектра речи описывается комбинацией формант (резонансных частот голосового тракта). Основные параметры формант - центральная частота, амплитуда и ширина спектра.
Современные вокодеры можно поделить на аппаратные (с которых все и началось) и виртуальные (появились гораздо позже с развитием компьютерных технологий создания музыки). В практике компьютерного музыканта значительно чаще используются вокодеры виртуальные, реализованные в виде VST-плагинов (VST-pugins), так как они более гибкие в настройке. Применяются подобные решения вокодеров не сами по себе, а совместно с программой-хостом. В качестве таковой может быть использована любая виртуальная студия, поддерживающая технологию VST. Программа хост позволяет подключать собственно сам вокодер, и выбирать откуда будет поступать несущий и модулирующий сигнал (некоторые вокодеры имеют встроенный синтезатор несущего сигнала). Примером виртуальных вокодеров могут служить VST плагины такие как -- Steinberg Vocoder, Fruity Vocoder, Akai DC Vocoder, Voctopus, AC vocoder, Formulator, Lpc-vocoder, Darkoder, Cylonix. Любой человек, знакомый с его принципиальным устройством, может собрать собственный вокодер в любой модульной програме типа NI Reactor/Generator, Max MSP, Buzz Composer. Примером аппаратного вокодера могут служить: Электроника ЭМ-26 со встроенным синтезатором, Korg KAOSS PAD 3 (цифровой), Korg VC-10 Vocoder, Boss Vt1-Vocoder, Sennheiser Vocoder, и т.д.
При сжатии реализующимся на аппаратном уровне, с использованием специализированных процессоров обработки цифрового сигнала, операция кодирования может привести к задержкам в передаче голоса. При разработке высококачественных методов сжатия речи для скоростей цифровых потоков ниже 10 Кбит/с возникают особенные трудности. Для простых алгоритмов задержка невелика -- единицы миллисекунд, однако для сложных алгоритмов, обеспечивающих значительное сжатие, продолжительность задержки может составлять около сотни миллисекунд, что вполне ощутимо при разговоре. Недавние достижения в области обработки цифровых сигналов (DSP) и сверхбольших интегральных схем (very large scale integration -- VLSI) сделали реализацию таких кодирующих устройств возможной и экономически эффективной.
DSP(Digital Signal Processor) - сигнальный процессор, обычно модулирует исходящие сигналы и демодулирует входящие на цифровом уровне в соответствии с используемым протоколом передачи данных. Другая важная проблема состоит в том, что сжатие речи, как правило, снижает качество звука. Известно, что больших степеней сжатия цифровой информации можно достичь только при использовании алгоритмов, не допускающих полного восстановления сжимаемой информации. Чем выше степень сжатия информации, тем сложнее (и соответственно дороже) оборудование требуется для осуществления этой операции. По мере усовершенствования технической базы сжатия речи это ограничение теряет свою жесткость, однако появляются все новые, более сложные алгоритмы, потребляющие большие вычислительные мощности.
Для радиотелефонной связи с подвижными объектами ни ИКМ, ни АДИКМ не годятся из-за их слишком высоких скоростей и узости радиоканалов связи. Для связи с морскими судами было предложено несколько кодеков, среди которых наибольший интерес представляет кодек Inmarsat-М (система спутниковой радионавигации), используемый ныне всеми странами и работающий по алгоритму IMBE (улучшенное многополосное возбуждение). По факту широкого применения этот кодек является международным стандартом. В этом алгоритме спектр речи делят фильтрами на несколько полос и в каждой полосе принимают отдельное решение “звонко-глухо”. Благодаря подстройке фильтров к гармоникам частоты ОТ достигается вполне удовлетворительное качество речи, несмотря на низкую скорость. Для лучшего выделения ОТ анализируют нескольких интервалов ОТ и формируют его интегральную оценку. Правда, кодек IMBE отличает высокая сложность и стоимость. Другой класс методов использует свойства собственно речевых сигналов - это CELP, VSELP, GSM и MPLPC. Они обеспечивают уровень сжатия от 10 до 20 раз, теряя при этом в той или иной мере качество исходного речевого PCM сигнала.
Высокоэффективная компрессия речи существует также в виде отдельного программного продукта. Системы позволяют записать фрагмент речи любой длительности -- единственным ограничением является емкость диска -- преобразовать или сжать его и сохранить либо в исходном (PCM WAVE), либо в сжатом форматах. Эти программные продукты позволяют оптимизировать процесс обработки речи в зависимости от особенностей дикции говорящего. Также имееются возможности управления работой алгоритмов сжатия для достижения компромисса между желанием получить более высокую степень сжатия и скорость обработки, и требованиям к более высокому качеству и натуральности восстановленного сигнала.
1.5 Методы кодирования звука
Сформированный цифровой сигнал может переносить любую полезную информацию, которая закодирована в виде последовательности битов - нулей и единиц.
Для повышения стойкости цифрового сигнала к помехам и искажениям применяется цифровое избыточное кодирование двух типов: проверочные (EDC - Error Detection Code, обнаруживающий ошибку код) и корректирующие (ECC - Error Correction Code, исправляющий ошибку код) коды. Цифровое кодирование состоит в простом добавлении к исходной информации дополнительных битов и/или преобразовании исходной битовой цепочки в цепочку большей длины и другой структуры. EDC позволяет просто обнаружить факт ошибки - искажение или выпадение полезной либо появление ложной цифры, однако переносимая информация в этом случае также искажается; ECC позволяет сразу же исправлять обнаруженные ошибки, сохраняя переносимую информацию неизменной. Для удобства и надежности передаваемую информацию разбивают на блоки (кадры), каждый из которых снабжается собственным набором этих кодов.
Каждый вид EDC/ECC имеет свой предел способности обнаруживать и исправлять ошибки, за которым опять начинаются необнаруженные ошибки и искажения переносимой информации. Увеличение объема EDC/ECC относительно объема исходной информации в общем случае повышает обнаруживающую и корректирующую способность этих кодов.
В качестве EDC популярен циклический избыточный код CRC (Cyclic Redundancy Check), суть которого состоит в сложном перемешивании исходной информации в блоке и формированию коротких двоичных слов, разряды которых находятся в сильной перекрестной зависимости от каждого бита блока. Изменение даже одного бита в блоке вызывает значительное изменение вычисленного по нему CRC, и вероятность такого искажения битов, при котором CRC не изменится, исчезающе мала даже при коротких (единицы процентов от длины блока) словах CRC. В качестве ECC используются коды Хэмминга (Hamming) и Рида-Соломона (Reed-Solomon), которые также включают в себя и функции EDC.
Информационная избыточность несущего цифрового сигнала приводит к значительному (на порядок и более) расширению полосы частот, требуемой для его успешной передачи, по сравнению с передачей исходного сигнала в аналоговой форме. Кроме собственно информационной избыточности, к расширению полосы приводит необходимость сохранения достаточно крутых фронтов цифровых импульсов.
Кроме целей помехозащиты, информация в цифровом сигнале может быть подвергнута также линейному или канальному кодированию, задача которого - оптимизировать электрические параметры сигнала (полосу частот, постоянную составляющую, минимальное и максимальное количество нулевых/единичных импульсов в серии и т.п.) под характеристики реального канала передачи или записи сигнала.
Полученный несущий сигнал, в свою очередь, также является обычным электрическим сигналом, и к нему применимы любые операции с такими сигналами - передача по кабелю, усиление, фильтрование, модуляция, запись на магнитный, оптический или другой носитель и т.п. Единственным ограничением является сохранение информационного содержимого - так, чтобы при последующем анализе можно было однозначно выделить и декодировать переносимую информацию, а из нее исходный сигнал.
Сжатие РС может быть как без потерь (архивация), так и с потерями. В настоящее время применяется множество алгоритмов сжатия речи. Они могут быть реализованы как аппаратнными, так и программными методами. Условно все существующие кодеки можно разделить на три группы:
1. Кодеки с импульсно-кодовой модуляцией (ИКМ) и адаптивной дифференциальной импульсно-кодовой модуляцией (АДИКМ), появившиеся в конце 50-х годов и использующиеся сегодня в системах традиционной телефонии. В большинстве случаев, представляют собой сочетание АЦП/ЦАП.
2. Кодеки с вокодерным(от англ. Voice и Coder) преобразованием речевого сигнала возникли в системах мобильной связи для снижения требований к пропускной способности радиотракта. Эта группа кодеков использует гармонический синтез сигнала на основании информации о его вокальных составляющих -- фонемах. В большинстве случаев, такие кодеки реализованы как аналоговые устройства.
3. Комбинированные (гибридные) кодеки сочетают в себе технологию вокодерного преобразования/синтеза речи, но оперируют уже с цифровым сигналом посредством специализированных DSP(Digital Signal Processor). Кодеки этого типа содержат в себе ИКМ или АДИКМ кодек и реализованный цифровым способом вокодер.
Под кодированием подразумевается преобразование РС в некоторый «другой» сигнал, который можно представить с меньшим числом разрядов, что в итоге повысит скорость передачи данных.
В современных цифровых системах регистрации, передачи и хранения речевой информации с целью уменьшения объема, занимаемого информацией на физических носителях, или скорости ее передачи по цифровым каналам связи применяются различные методы сжатия речи. В таких системах речевой сигнал, преобразованный в цифровой вид, перед записью на носитель или передачей кодируется при помощи специального алгоритма сжатия, а при воспроизведении с носителя или на приеме - декодируется. Как известно, речевой сигнал в информационно - коммуникативном плане обладает определенной избыточностью, не влияющей на смысловое содержание речевой посылки. При этом сжатие речи возможно за счет частичного удаления этой избыточности, что может не уменьшать разборчивости и качества слухового восприятия речи, но, вместе с тем, лишить ее особых признаков, необходимых для экспертной идентификации речи. Базируясь на основных принципах сжатия информации, при сжатии звука используются особенности звуковой информации, особенности природы, механизмов проихождения звука и звуковосприятия.
После того как аналоговый сигнал преобразован в цифровую форму, к нему можно применять различные способы обработки, которые невозможно использовать при работе с чисто аналоговым сигналом. В частности, оцифрованный сигнал перед передачей можно сжать, уменьшив таким образом пропускную способность, необходимую для передачи одного голосового соединения. Методы сжатия речи разрабатываются для достижения определенных целей -- нужных скоростей битового потока, качества сигнала, задержки и сложности. Чтобы гарантировать взаимную совместимость устройств кодирования и декодирования, организации по стандартам, такие как ITU-Т, ISO и ETSI, определяют эти цели в соответствии с предназначением каждого метода. До сих пор, при некоторых условиях предпочитают аналоговые сети цифровым, поскольку в последних речь часто звучит «механически», случаются посторонние звуки и т. д. И все из-за сжимающих кодеков речи, так как в остальном цифровые протоколы передачи обеспечивают лучшее качество звучания. В компьютерной телефонии снижению качества мы, помимо кодеков речи, обязаны заметным запаздываниям сигнала и ошибкам при сборке пакетов. Для передачи речи в аналоговой телефонии когда-то отказались от составляющих лежащих вне полосы частот 0,3-3,4 кГц, хотя спект речи лежит примерно в диапазоне от 50 до 10000 Гц. Это ограничение дапазона частот ухудшило восприятие ряда звуков, например - шипящих, существенная часть энергии которых сосредоточена в верхней части речевого спектра, но мало затронуло разборчивость. Ограничение частоты снизу (до 300 Гц) также ухудшает восприятие из-за потерь низкочастотных гармоник основного тона. А в цифровой телефонии к влиянию ограничения спектра добавляются еще шумы дискретизации, квантования и обработки, дополнительно зашумляющие речь. Для совместимости по полосе с распространенными аналоговыми сетями в цифровой телефонии отсчеты аналоговой речи приходится брать согласно теореме Котельникова с частотой 8 кГц -- не меньше двух отсчетов на 1 Гц полосы. Правда, в цифровой телефонии существует принципиальная возможность использовать спектр речи за пределами полосы 0,3-3,4 кГц и тем самым повысить качество, но эти методы не реализуются, так как они вычислительно пока еще очень сложны. При полосе исходного сигнала до 6 кГц и тактовой частоте отсчетов около 16 кГц сжатый цифровой сигнал требует для передачи канал в 12 кбит/с. При этом оценка качества по критерию MOS может быть выше 4,5 балла.
MOS(mean opinion score) - была введена для средней субъективной оценки качества речи, психологической реакции человека на воспроизводимую речь. Оценка по шкале MOS определяется путем обработки оценок, даваемых группами слушателей.
Многие системы сжатия звука имеют механизмы адаптации к характеру звука посредством изменения параметров и алгоритмов кодирования. Основные механизмы:
· Изменение размера и формы окна анализа. (в AAC окно может быть 2 размеров: 512 или 2048 выборок, и 2 различных форм).
· Выбор кодовых книг для упаковки коэффициентов. В различном виде присутствует практически по всех кодеках. (AAC использует 11 различных кодовых книг для кодирования спектральных коэффициентов).
· Выделение и раздельное кодирование шума. (Perceptual noise substitution в AAC).
· Экстраполяция спектра и кодирование гармоник. (в AAC).
· Адаптивное линейное предсказание и кодирование ошибки. (LPC, FLAC).
Большую трудность для сжатия представляет -- озвученная речь, образуемая с помощью звуковых связок человека. Скорость периодических колебаний связок задает так называемую частоту основного тона (ОТ) -- периодическую подпитку энергией голосового тракта человека, который представляет собой объемный резонатор. Голосовой тракт формирует спектральную окраску речи, или, другими словами, ее формантную структуру. Другое название голосового тракта -- синтезирующий фильтр -- так как математическое описание речеобразования обычно ведется в терминах линейной фильтрации. Тогда, условно, речевой сигнал можно разделить на две составляющие, отвечающие за первый ОТ (возбуждение фильтра) и второй голосовой тракт (формантная структура сигнала). Соответственно, большинство на сегодня используемых алгоритмов, так или иначе, решают один вопрос -- как наиболее эффективно выделить и сокращенно описать обе составляющие. В настоящее время наиболее известны методы сжатия - Audio MPEG, PASC и ATRAC. Все они используют так называемое “кодирование для восприятия” (perceptual coding) при котором из звукового сигнала удаляется информация, малозаметная для слуха. В результате, несмотря на изменение формы и спектра сигнала, его слуховое восприятие практически не меняется, а степень сжатия оправдывает незначительное уменьшение качества. Такое кодирование относится к методам сжатия с потерями (lossy compression), когда из сжатого сигнала уже невозможно точно восстановить исходную волновую форму.
Приемы удаления части информации базируются на особенности человеческого слуха, называемой маскированием: при наличии в спектре звука выраженных пиков (преобладающих гармоник) более слабые частотные составляющие в непосредственной близости от них слухом практически не воспринимаются (маскируются). При кодировании весь звуковой поток разбивается на мелкие кадры, каждый из которых преобразуется в спектральное представление и делится на ряд частотных полос. Внутри полос происходит определение и удаление маскируемых звуков, после чего каждый кадр подвергается адаптивному кодированию прямо в спектральной форме. Все эти операции позволяют значительно (в несколько раз) уменьшить объем данных при сохранении качества, приемлемого для большинства слушателей.
Каждый из описанных методов кодирования характеризуется скоростью битового потока (bitrate), с которой сжатая информация должна поступать в декодер при восстановлении звукового сигнала. Декодер преобразует серию сжатых мгновенных спектров сигнала в обычную цифровую волновую форму.
Понятие формата используется в двух различных смыслах. При использовании специализированного носителя или способа записи и специальных устройств чтения/записи в понятие формата входят как физические характеристики носителя звука - размеры кассеты с магнитной лентой или диском, самой ленты или диска, способ записи, параметры сигнала, принципы кодирования и защиты от ошибок и т.п. При использовании универсального информационного носителя широкого применения - например, компьютерного гибкого или жесткого диска - под форматом понимают только способ кодирования цифрового сигнала, особенности расположения битов и слов и структуру служебной информации; вся “низкоуровневая” часть, относящаяся непосредственно к работе с носителем, в этом случае остается в ведении компьютера и его операционной системы.
Из специализированных форматов и носителей цифрового звука в настоящее время наиболее известны следующие: CD (Compact Disk - компакт-диск) - односторонний пластмассовый диск с оптической лазерной записью и считыванием, диаметром 120 или 90 мм, вмещающий максимум 74 минуты стереозвучания с частотой дискретизации 44.1 кГц и 16-разрядным линейным квантованием. Система предложена фирмами Sony и Philips и носит название CD-DA (Compact Disk - Digital Audio). Для защиты от ошибок используется двойной код Рида-Соломона с перекрестным перемежением (Cross Interleaved Reed-Solomon Code, CIRC) и модуляция кодом Хэмминга 8-14 (Eight-to-Fourteen Modulation, EFM).
ИКМ-приставка (PCM deck) - система для преобразования цифрового звукового сигнала в псевдовидеосигнал, совместимый с популярными видеоформатами (NTSC, PAL/SECAM), и обратно. ИКМ-приставки применяются в сочетании с бытовыми (VHS) или студийными (S-VHS, Beta, U-Matic) видеомагнитофонами, используя их в качестве устройств чтения/записи.
Устройства работают с 16-разрядным линейным квантованием на частотах дискретизации 44.056 кГц (NTSC) и 44.1 кГц (PAL/SECAM), и позволяют записывать двух- или четырехканальную цифровую сигналограмму. По сути, такая приставка представляет собой модем (модулятор-демодулятор) для видеосигнала.
S-DAT (Stationary head Digital Audio Tape - цифровая звуковая лента с неподвижной головкой) - система наподобие обычного кассетного магнитофона, запись и чтение в которой ведутся блоком неподвижных тонкопленочных головок на ленте шириной 3.81 мм в двухсторонней кассете размером 86 x 55.5 x 9.5 мм. Реализует 16-разрядную запись двух или четырех каналов на частотах 32, 44.1 и 48 кГц.
R-DAT (Rotary head Digital Audio Tape - цифровая звуковая лента с вращающейся головкой) - система наподобие видеомагнитофона с поперечно-наклонной записью вращающимися головками. Наиболее популярный формат ленточной цифровой записи, системы R-DAT часто обозначаются просто DAT. В R-DAT используется кассета размером 73 x 54 x 10.5 мм, с лентой шириной 3.81 мм, а сама система кассеты и магнитофона очень похожа на типовой видеомагнитофон. Базовая скорость движения ленты - 8.15 мм/с, скорость вращения блока головок - 2000 об/мин. R-DAT работает с двухканальным (в ряде моделей - четырехканальным) сигналом на частотах дискретизации 44.1 и 48 кГц с 16-разрядном линейным квантованием, и 32 кГц - с 12-разрядным нелинейным. Для защиты от ошибок используется двойной код Рида-Соломона и модуляция кодом 8-10. Емкость кассеты - 80..240 минут в зависимости от скорости и длины ленты. Бытовые DAT-магнитофоны обычно оснащены системой защиты от незаконного копирования фонограмм, не допускающей записи с аналогового входа на частоте 44.1 кГц, а также прямого цифрового копирования при наличии запрещающих кодов SCMS (Serial Code Managenent System). Студийные магнитофоны таких ограничений не имеют.
DASH (Digital Audio Stationary Head) - система с записью на магнитную ленту шириной 6.3 и 12.7 мм в продольном направлении неподвижными головками. Скорость движения ленты - 19.05, 38.1, 76.2 см/с. Реализует 16-разрядную запись с частотами дискретизации 44.056, 44.1 и 48 кГц от 2 до 48 каналов.
ADAT (Alesis DAT) - собственная (proprietary) система восьмиканальной записи звука на видеокассету типа S-VHS, разработанная фирмой Alesis.
Использует 16-разрядное линейное квантование на частоте 48 кГц, емкость кассеты составляет до 60 минут на каждый канал. Магнитофоны ADAT допускают каскадное соединение, в результате чего может быть собрана система 128-канальной синхронной записи. Для ADAT выпускается множество различных интерфейсных блоков для сопряжения с DAT, CD, MIDI и т.п. Модель Meridian (ADAT Type II) использует 20-разрядное квантование на частотах 44.1 и 48 кГц.
DCC (Digital Compact Cassette - цифровая компакт-кассета) - бытовая система записи в продольном направлении на стандартную компакт-кассету, разработанная Philips. Скорость движения ленты - 4.76 см/с, максимальное время звучания такое же, как при аналоговой записи.
Частоты дискретизации - 32, 44.1, 48 кГц, разрешение - 16/18 разрядов (метод сжатия PASC). На DCC-магнитофонах могут воспроизводиться (но не записываться) обычные аналоговые компакт-кассеты. В настоящее время система DCC признана неперспективной.
MD (MiniDisk) - бытовая и концертная система записи на магнитооптический диск, разработанная Sony. Диск диаметром 64 мм, помещенный в пластмассовый футляр размером 70 x 67.5 x 5 мм, вмещает 74 минуты (60 в ранних версиях) стереофонического звучания. При обмене со внешними устройствами используется формат 16-разрядных отсчетов на частоте 44.1 кГц, однако на сам диск сигнал записывается после сжатия методом ATRAC.
Microsoft RIFF/WAVE (Resource Interchange File Format/Wave - формат файлов передачи ресурсов (волновая форма) - стандартный формат звуковых файлов в компьютерах IBM PC. Файл этого формата содержит заголовок, описывающий общие параметры файла, и один или более фрагментов (chunks), каждый из которых представляет собой волновую форму или вспомогательную информацию - режимы и порядок воспроизведения, пометки, названия и координаты участков волны и т.п. Содеpжит звук - моно/стеpео, 8/16 pазpядов, с pазной частотой оцифpовки. Файлы этого формата имеют расширение .WAV.
Apple AIFF (Audio Interchange File Format - формат файла обмена звуком) - стандартный тип звукового файла в системах Apple Macintosh.
RAW - одноканальный фоpмат “чистой оцифpовки”, не содеpжащий заголовка. Обычно оцифpовка хpанится в 16-pазpядном знаковом (signed) фоpмате, когда первыми в каждой паре идут отсчеты левого канала, хотя могут быть и исключения.
VOC и CMF - фоpматы пpедставления оцифpованного звука и паpтитуp от фиpмы Creative Labs, AIFF (Audio-...) - фоpмат звуковых файлов на Macintosh и SGI, AU - фоpмат SUN/NeXT.
ATRAC (Adaptive Transform Acoustic Coding - акустическое кодирование адаптивным преобразованием) базируется на стереофоническом звуковом формате с 16-разрядным квантованием и частотой дискретизации 44.1 кГц. При сжатии каждый кадр делится на 52 частотные полосы, результирующая скорость потока - 292 кбит/с (сжатие 1:5). Применяется в системе MiniDisk.
Audio MPEG - группа методов сжатия звука, стандартизованная MPEG (Moving Pictures Experts Group - экспертной группой по обработке движущихся изображений). Например у MPEG-1 имеются три уровня (layers) для сжатия стереофонических сигналов: 1 - коэффициент сжатия 1:4 при потоке данных 384 кбит/с; 2 - 1:6..1:8 при 256..192 кбит/с; 3 - 1:10..1:12 при 128..112 кбит/с. Минимальная скорость потока данных в каждом уровне определяется в 32 кбит/с; указанные скорости потока позволяют сохранить качество сигнала примерно на уровне компакт-диска.
Все три уровня используют входное спектральное преобразование с разбиением кадра на 32 частотные полосы. Наиболее оптимальным в отношении объема данных и качества звука признан уровень 3 со скоростью потока 128 кбит/с и плотностью данных около 1 Мб/мин. При сжатии с более низкими скоростями начинается принудительное ограничение полосы частот до 15-16 кГц, а также возникают фазовые искажения каналов (эффект типа фэйзера или фленжера).
Audio MPEG используется в компьютерных звуковых системах, CD-i/DVD, “звуковых” дисках CD-ROM, цифровом радио/телевидении и других системах массовой передачи звука.
PASC (Precision Adaptive Sub-band Coding - точное адаптивное внутриполосное кодирование) - частный случай Audio MPEG-1 Layer 1 со скоростью потока 384 кбит/с (сжатие 1:4). Применяется в системе DCC.
Существуют разные стандарты MPEG (как их еще иногда называют фазы - phase): MPEG-1, MPEG-2, MPEG-3, MPEG-4, MPEG-7.
MPEG состоит из трех частей: Audio, Video, System (объединение и синхронизация двух других).
По стандарту MPEG-1 потоки видео и звуковых данных передаются со коростью 150 килобайт в секунду, с такой же скоростью, как и односкоростной CD-ROM проигрыватель, и управляются путем выборки ключевых видео кадров и заполнением только областей, изменяющихся между кадрами. Для большего сжатия в B и P кадрах используется алгоритм предсказания движения
Форматы кодирования звука деляться на три части: Layer I, Layer II, Layer III (прообразом для Layer I и Layer II стал стандарт MUSICAM, этим именем сейчас иногда называют Layer II). Layer III достигает самого большого сжатия, но, соответственно, требует больше ресурсов на кодирование.
Принципы кодирования основаны на том факте, что человеческое ухо не совершенно и на самом деле в несжатом звуке (CD-audio) передается много избыточной информации. Принцип сжатия работает на эффектах маскировки некоторых звуков для человека - если, например, идет сильный звук на частоте 1000 Гц, то более слабый звук на частоте 1100 Гц уже не будет слышен человеку, также будет ослаблена чувствительность человеческого уха на период в 100 мс после и 5 мс до возникновения сильного звука. Psycoacustic (психоакустическая) модель используемая в MPEG разбивает весь частотный спектр на части, в которых уровень звука считается одинаковым, а затем удаляет звуки не воспринимаемые человеком, благодаря описанным выше эффектам.
В Layer III части разбитого спектра самые маленькие, что обеспечивает самое хорошее сжатие. MPEG Audio поддерживает совместимость Layer'ов снизу вверх, т.е. Decoder (декодировщик) для Layer II будет также распознавать Layer I.
Синхронизация и объединение звука и видео, осуществляется с помощью System Stream, который включает в себя:
· Системный слой, содержащий временную и другую информацию чтобы разделить и синхронизовать видео и аудио.
· Компрессионный слой, содержащий видео и аудио потоки.
Звуковой поток состоит из пакетов каждый из которых состоит из заголовка и нескольких звуковых кадров (audio-frame).
Для синхронизации аудио и видео потоков в системный поток встраивается таймер, работающий с частотой 90 Кгц (System Clock Reference - SCR, метка по которой происходит увеличения временного счетчика в декодере) и Presentation Data Stamp (PDS, метка насала воспроизведения, вставляются в картинку или в звуковой кадр, чтобы объяснить декодеру, когда их воспроизводить. Размер PDS сотавляет 33 бита, что обеспечивает возможность представления любого временного цикла длинной до 24 часов).
Параметры MPEG-1 (утверждены в 1992): 48, 44.1, 32 Кгц, mono, dual (два моно канала), стерео, интенсивное стерео (объединяются сигналы с частотой выше 2000 Гц.), m/s stereo (один канал переносит сумму - другой разницу). Сжатие и скорость передачи звука для одного канала, для частоты 32 Кгц представлены в таблице.
Таблица 1.6
Способ кодирования |
Скорость передачи kbps (килобит в сек.) |
Коэффициент сжатия |
|
Layer I |
192 |
1:4 |
|
Layer II |
128..96 |
1:6..8 |
|
Layer III |
64..56 |
1:10..12 |
Компрессия по стандарту MPEG-2 кардинально меняет положение вещей. Более 97% цифровых данных, представляющих видео сигнал дублируются, т.е. Являются избыточными и могут быть сжаты без ущерба качеству изображения. Алгоритм MPEG-2 анализирует видеоизображение в поисках повторений, называемых избыточностью. В результате процесса удаления избыточности, обеспечивается превосходное видеоизображение в формате MPEG-2 при более низкой скорости передачи данных. По этой причине, современные средства поставки видеопрограмм, такие как цифровые спутниковые системы и DVD, используют именно стандарт MPEG-2.
Изменения в Audio:
· Появились новые виды частот 16, 22.05, 24 КГц.
· Поддержка многоканальности - возможность иметь 5 полноценных каналов (left, center, right, left surround, right surround) + 1 низкочастотный (subwoofer).
· Появился AAC (Advanced Audio Coding - прогрессивное кодирование звука) стандарт - обеспечивает очень высокое качество звука со скоростью 64 kbps per channel (килобит в сек. на канал), возможно использовать 48 основных каналов, 16 низкочастотных каналов для звуковых эффектов, 16 многоязыковых каналов и 16 каналов данных. До 16 программ может быть описано используя любое количество элементов звуковых и других данных. Для AAC существуют три вида профиля - Main (используется когда нет лишней памяти), Low Complexity (LC), Scalable Sampling Rate (SSR, требуется декодер с изменяемой скоростью приема данных).
Декодеры должны быть:
1. "forwards compatible" (вперед совместимыми) - MPEG-2 Audio Decoder понимает любые MPEG-1 аудио каналы.
2. "backward compatible" (обратно совместимыми) - MPEG-1 Audio Decoder должен понимать ядро MPEG-2 Audio (L-канал, R-канал)
3. "matrixing" (матрицируемыми) - MPEG1 Audio Decoder должен понимать 5-ти канальный MPEG-2 (L = left signal + a * center signal + b * left surround signal, R = right signal + a * center signal + b * right surround signal)
4. MPEG-1 Звуковой декодер не обязан понимать MPEG-2 AAC.
В следствии зтого совершенно спокойно можно использовать MPEG-1 Vidio + MPEG-2 Audio или наоборот MPEG-2 Audio + MPEG-1 Video.
Изменения связаные с алгоритмами кодирования: Точность частотных коэффициентов выбирается пользователем (8, 9, 10, 11 бит на одно значение - в MPEG-1 только 8 бит).
· Нелинейный quantization процесс (разбиение непрерыных данных в дискретные).
· Возможность загрузить quantization matrix (матрица преобразований непрерыных данных в дискретные) перед каждым кадром.
· Новые режимы предсказания движения (16x8 MC, field MC, Dual Prime)
Системный уровень MPEG-2, обеспечивает два уровня объединения данных: Packetized Elementary Stream (PES) - разбивает звук и видео на пакеты.
1. Второй уровень делится на:
· MPEG-2 Program Stream (совместим с MPEG-1 System) - для локальная передача в среде с маленьким уровнем ошибок
· MPEG-2 Transport Stream (Рис. 6) - внешнее вещание в среде с высоким уровнем ошибок - передает транспортные пакеты (длиной 188 либо 188+16 бит) двух типов (сжатые данные - PES - и сигнальную таблицу Program Specific Information -- PSI).
MPEG-4 - стандарт для низкоскоростной передачи (64 kbps), краткое описание: Разделяет картинку на различные элементы, называемые media objects (медиа объекты).
· Описывает структуру этих объектов и их взаимосвязи чтобы затем собрать их в видеозвуковую сцену.
· Позволяет изменять сцену, что обеспечивает высокий уровень интерактивности для конечного пользователя.
Видеозвуковая сцена состоит из медиа объектов, которые объеденены в иархическую структуру:
· Неподвижные картинки (например фон)
· Видио объекты (говорящий человек).
· Аудио объекты (голос связанный с этим человеком).
· Текст связанный с данной сценой.
· Синтетические объекты - объекты которых не было изначально в записываемой сцене, но которые туда добавляются при демонстрации конечному пользователю (например синтезируется говорящая голова).
· Текст связанный с головой из которого в конце синтезируется голос.
Такой способ представления данных позволяет: Перемещать и помещать медиа объекты в любое место сцены.
· Трансформировать объекты, изменять геометрические размеры.
· Собирать из отдельных объектов составной объект и проводить над ним какие-нибудь операции.
· Изменять текстуру объекта (например цвет), манипулировать объектом (заставить ящик передвигаться по сцене)
· Изменять точку наблюдения за сценой.
MPEG-J - стандартное расширение MPEG-4 в котором используются Java - элементы.
MPEG-7 - не является продолжение MPEG как такового. MPEG - 7 будет обеспечивать стандарт для описания различных типов мультимедийной информации (а не для ее кодирования), чтобы обсепечивать эффективный и быстрый ее поиск. MPEG-7 официально называют - “Multimedia Content Description Interface” (Интерфейс описания мультимедиа данных). MPEG-7 определяет стандартный набор дискриптеров для различных типов мультимедиа информации, так же он стандартизует способ определения своих дискриптеров и их взаимосвязи (description schemes). Для этой цели MPEG-7 вводит DDL (Description Definition Language - язык описания определений). Основная цель применения MPEG-7 это поиск мультимедиа информации (так же как сейчас мы можем найти текст по какому-нибудь предложению), например:
· Музыка. Сыграв несколько нот на клавиатуре можно получить список музыкальных произведений, которые содержат такую последовательность.
· Графика. Нарисовав несколько линий на экране, получим набор рисунков содержащих данный фрагмент.
· Картины. Определив объект (задав его форму и текстуру) получим список картин, содержащих оный.
· Видео. Задав объект и движение получим набор видео или анимации.
· Голос. Задав фрагмент голоса певца, получим набор песен и видео роликов где он поет.
MHEG - (Multimedia & Hypermedia Expert Group - экспертная группа по мультимедиа и гипермедиа) - определяет стандарт для обмена мультимедийными объектами (видео, звук, текст и другие произвольные данные) между приложениями и передачи их разными способами (локальная сеть, сети телекоммуникаций и вещания) с использованием MHEG object classes. Он позволяет программным объектам включать в себя любую систему кодирования (например MPEG), которая определена в базовом приложении. MHEG был принят DAVIC (Digital Audio-Visual Council - совет по цифровому видео и звуку). MHEG объекты делаются мультимедиа приложениями используя multimedia scripting languages.
Утверждается, что MHEG - будущий международный стандарт для интерактивного TV, так как он работает на любых платформах и его документация свободно распространяема.
MP3 - сокращение от MPEG Layer3. Это один из потоковых форматов хранения и передачи аудиосигнала в цифровой форме, разработанный Fraunhofer IIS и THOMSON, позднее утвержденный как часть стандартов сжатого видео и аудио MPEG1 и MPEG2. Данная схема является наиболее сложной схемой семейства MPEG Layer 1/2/3. Она требует наибольших затрат машинного времени для кодирования по сравнению с двумя другими и обеспечивает более высокое качество кодирования. Используется главным образом для передачи аудио в реальном времени по сетевым каналам и для кодирования CD Audio.
Передача данных происходит потоком независимых отдельных блоков данных -- фреймов, каждый из которых кодируется отдельно и помещается к конечном файле независимо от других. Последовательность воспроизведения определяется порядком расположения фреймов. Каждый фрейм может кодироваться с разными параметрами. Информация о них содержится в заголовке фрейма. Кодирование начинается с того, что исходный сигнал с помощью фильтров разделяется на несколько, представляющих отдельные частотные диапазоны, сумма которых эквивалентна исходному сигналу. При декодировании сигнал формируется из последовательности декодированных фреймов.
Высокая степень компактности MP3 по сравнению с PCM 16 Bit Stereo 44.1 kHz и ему подобными форматами при сохранении аналогичного качества звучания достигается с помощью дополнительного квантования по установленной схеме, позволяющей минимизировать потери качества. Сжатие достигается учетом особенностей человеческого слуха - эффекта маскирования, а также учитывается неспособность большинства людей различать сигналы, по мощности лежащие ниже определенного уровня, разного для разных частотных диапазонов.
Для каждого диапазона определяется величина маскирующего эффекта, создаваемого сигналом соседних диапазонов и сигналом предыдущего фрейма. Если она превышает мощность сигнала интересующего диапазона или мощность сигнала в нем оказывается ниже определенного опытным путем порога слышимости, то для данного фрейма данный диапазон сигнала не кодируется.
Для оставшихся данных для каждого диапазона определяется, сколькими битами на сэмпл мы можем пожертвовать, чтобы потери от дополнительного квантования были ниже величины маскирующего эффекта. При этом учитывается, что потеря одного бита ведет к внесению шума квантования величиной порядка 6 dB.
После завершения работы психоакустической модели формируется итоговый поток, который дополнительно кодируется по Хаффману, на этом кодирование завершается.
На практике схема несколько сложнее. Например, необходимо согласовываться с требованиями ширины потока (bitrate), варьируется от наибольшего, 320 kbs (320 килобит в секунду, также пишут kbs, kbps или kb/s), до 96 kbs и ниже.
Термин битрейт в общем случае обозначает общую величину потока, количество передаваемой за единицу времени информации, и поэтому не связан с внутренними тонкостями строения потока, его смысл не зависит от того, содержит ли поток моно или стерео, или пятиканальное аудио с текстом на разных языках, или что-либо ещё.В зависимости от кодера это приводит при повышении битрейта к разного рода релаксациям при отборе сохраняемой части исходного сигнала, а при понижении - наоборот, к ужесточению критериев.
Подобные техники называются адаптивным кодированием и позволяют экономить на наименее значимых с точки зрения восприятия человеком деталях звучания. Степень сжатия, и, соответственно, объем дополнительного квантования, определяются не форматом, а самим пользователем в момент задания параметров кодирования.
На проведенных тестах специально приглашенные опытные эксперты, специализирующиеся на субъективной оценке качественности звучания, не смогли различить звучание оригинального трека на CD и закодированного в MP3 с коэффициентом сжатия 6:1, то есть с битрейтом в 256kbs.
Более низкие битрейты, несмотря на их популярность, не дают возможности обеспечить надлежащее качество кодирования.
В рамках MP3 кодирование стереосигнала допустимо четырьмя различными методами: Dual Channel - Каждый канал получает ровно половину потока и кодируется отдельно как моно сигнал. Рекомендуется главным образом в случаях, когда разные каналы содержат принципиально разный сигнал - скажем, текст на разных языках. Выставляется в некоторых кодерах по требованию.
Stereo - Каждый канал кодируется отдельно, но кодер может принять решение отдать одному каналу больше места, чем другому. Это может быть полезно в том случае, когда после отброса части сигнала, лежащей ниже порога слышимости или полностью маскируемой, оказалось, что код не полностью заполняет выделенный для данного канала объем, и кодер имеет возможность использовать это место для кодирования другого канала. В документации к mp3enc замечено, что этим, например, избегается кодирование “тишины” в одном канале, когда в другом есть сигнал.
Данный режим выставлен по умолчанию в большинстве ISO-based кодеров, а также используется продукцией FhG IIS на битрейтах выше 192kbs. Применим и на более низких битрейтах порядка 128kbs... 160kbs.
Joint Stereo (MS Stereo) - Стереосигнал раскладывается на средний между каналами и разностный. При этом второй кодируется с меньшим битрейтом. Это позволяет несколько увеличить качество кодирования в обычной ситуации, когда каналы по фазе совпадают. Но приводит и к резкому его ухудшению, если кодируются сигналы, по фазе не совпадающие. В частности, фазовый сдвиг практически всегда присутствует в записях, оцифрованных с аудиокассет, но встречается и на CD, особенно если CD сам был записан в свое время с аудиоленты.
Режим выставлен по умолчанию продукцией FhG IIS, а также кодером Lame, для битрейтов от 112kbs до 192kbs.
Joint Stereo (MS/IS Stereo) - Вводит еще один метод упрощения стереосигнала, повышающий качество кодирования на особо низких битрейтах. Состоит в том, что для некоторых частотных диапазонов оставляется уже даже не разностный сигнал, а только отношение мощностей сигнала в разных каналах. Понятно, для кодирования этой информации употребляется еще меньший битрейт.
В отличие от всех предыдущих, этот метод приводит к потере фазовой информации, но выгоды от экономии места в пользу среднего сигнала оказываются выше, если речь идет о очень низких битрейтах.
Этот режим по умолчанию используется продукцией FhG IIS для высоких частот на битрейтах от 96kbs и ниже (другими качественными кодерами этот режим практически не используется).
Но, как уже говорилось, при применении данного режима происходит потеря фазовой информации, также теряется любой противофазный сигнал.
На низких битрейтах всегда срезаются мелкие, сравнительно тихие детали, наличие или отсутствие которых нередко серьезно меняет эмоциональную окраску композиции, придает или лишает ее таких эффектов, как ощущение «кристальной» чистоты звука (в той мере, в которой она присутствует в CD Audio). Кроме того, в соответствии с психоакустической моделью, высшие (выше 16 кГц) частоты на низких битрейтах кодируются с очень низким приоритетом.
Подобные документы
Дискретные системы связи. Дифференциальная импульсно-кодовая модуляция. Квантование по уровню и кодирование сигнала. Помехоустойчивость систем связи с импульсно-кодовой модуляцией. Скорость цифрового потока. Импульсный сигнал на входе интегратора.
реферат [128,1 K], добавлен 12.03.2011Разработка адаптера аналого-цифрового преобразователя и активного фильтра низких частот. Дискретизация, квантование, кодирование как процессы преобразования сигналов для микропроцессорной секции. Алгоритм работы устройства и его электрическая схема.
реферат [847,2 K], добавлен 29.01.2011Способы представления речевого сигнала. Разработка алгоритма, структурной и функциональной схемы цифрового полосового вокодера. Расчёт параметров и характеристик набора цифровых полосовых фильтров. Оценка степени сжатия и моделирование в среде Matlab.
курсовая работа [1,1 M], добавлен 28.10.2011Импульсно-кодовая модуляция - метод цифрового представления. Преобразование аналогового сигнала в цифровой, операции: дискретизация по времени, квантование полученной совокупности отсчетов, замена квантованных значений сигнала последовательностью чисел.
реферат [210,9 K], добавлен 09.11.2010Разработка и описание принципиальной схемы дискретного устройства. Синтез основных узлов дискретного устройства, делителя частоты, параллельного сумматора по модулю два, параллельного регистра, преобразователя кодов. Генератор прямоугольных импульсов.
курсовая работа [1,6 M], добавлен 20.05.2014Диаграммы амплитудного и фазового спектров ФВЧ. Параметры УРЧ, спектры сигналов и принципиальная схема устройства. Параметры гетеродина, графики зависимостей. Последовательность униполярных импульсов. Принципиальная электрическая схема простейшего АГ.
контрольная работа [601,1 K], добавлен 26.08.2010Метод, использующий декомпозицию заданной ЛФ по методу Шеннона. Обзор и обоснование выбора элементной базы. Схема электрическая принципиальная устройства управления на мультиплексорах К155КП1 и логических элементах И–НЕ. Анализ гонок сигналов в схеме.
курсовая работа [462,1 K], добавлен 07.01.2015Анализ прохождения сигнала через линейное устройство. Анализ выходного сигнала на основании спектрального метода. Передаточная функция линейного устройства и его схема. Анализ спектра выходного сигнала. Расчёт коэффициента усиления по постоянному току.
курсовая работа [168,3 K], добавлен 25.05.2012Согласование уровней сигналов функциональных схем. Электрический расчёт узлов устройства. Схема преобразователя тока в напряжение. Проверка узлов схемы на Electronics Workbench. Разработка печатной платы одного из фрагментов электронного устройства.
курсовая работа [301,2 K], добавлен 15.08.2012Проектирование цифровых и логических схем, как основных узлов судовых управляющих и контролирующих систем. Основные компоненты структурной схемы и алгоритм функционирования цифрового регистрирующего устройства. Синтез и минимизация логических схем.
курсовая работа [31,0 K], добавлен 13.05.2009