Методы ЦПР и их помехоустойчивость
Качественные показатели методов ЦПР
Новые помехоустойчивые кодеры
Тенденции развития ЦПР

Что Важно знать о кодеке


Одной из прикладных задач общей теории связи является повышение помехоустойчивости цифровой передачи речи (ЦПР). Методы ЦПР (кодирования речи) ведут свою историю от первых, еще аналоговых, вокодеров (VOice CODer), схем распознавания речи с магнитного носителя и способов прямого цифрового представления непрерывного сигнала (АЦП). Соответствующие устройства называют кодерами (при прямом преобразовании), декодерами (при обратном преобразовании) или кодеками. В последние десятилетия применялись низкоэффективные устройства ЦПР; создание высокоэффективных устройств сдерживалось неразвитостью элементной базы. Сейчас же практически любая разработка реализуется "в железе" и поступает на рынок в считанные месяцы.

В современных устройствах используются алгоритмы, рекомендованные Международным союзом электросвязи для конкретных скоростей передачи (стандарты кодирования речи), алгоритмы для кодеков стандартов сетей передачи (например, GSM и Inmarsat), национальные стандартизированные алгоритмы (в частности, стандарт США на скорость 4,8 кбит/с). Кроме того, кодеки могут изготавливаться по оригинальным специализированным алгоритмам.

Сегодня появляются все новые и новые конфигурации систем передачи на базе разнородного оборудования, что, в первую очередь, связано с появлением частных сетей и использованием сетей передачи данных для передачи речи. Перед продавцами как систем передачи, так и их частей, а также перед руководителями предприятий, системными аналитиками и инженерами, администраторами сетей возникает задача согласования компонентов оборудования, необходимого для заданных схем организации связи. При этом многие стараются оптимизировать создаваемые системы передачи по различным критериям - цене, набору "высоких технологий", компактности аппаратных средств, удобству эксплуатации и другим. Данная статья призвана помочь в выборе устройства кодирования речи для конкретной реализации системы передачи.

Обобщенная структурная схема системы передачи аналогового сигнала по цифровому каналу связи приведена на рис.1. Предмет интереса цифровой телефонии - кодер источника речевого сигнала и его взаимодействие с остальными блоками в этой схеме. Каждый из блоков позволяет решать какую-либо одну прикладную задачу, что влияет не только на характеристики системы в целом, но и на выбор входящих в нее элементов.

Picture_1

Рисунок 1.
Структурная схема системы передачи аналогового сигнала по цифровому каналу связи.

Для того чтобы грамотно выбрать речевой кодек, достаточно представления об используемом в нем методе (на котором базируется алгоритм кодирования) и о процессе согласования сигнала, полученного после цифровой обработки (оцифровки), с цифровым каналом связи.

Методы ЦПР и их помехоустойчивость

Рассмотрим методы цифрового представления речи, к которым относятся:

  • прямое аналого-цифровое преобразование (или импульсно-кодовая модуляция, ИКМ);
  • эффективное кодирование речи, ЭКР (здесь можно выделить кодеры формы, вокодеры и кодеры, реализующие алгоритмы анализа через синтез).
  • Кроме указанных существуют кодеры с многополосным кодированием, с ортогональным преобразованием и с выявлением избыточности предсказания.

    Прямое аналого-цифровое преобразование является низкоэффективным (т. е. имеющим малую скорость кодирования при заданном качестве) высококачественным методом кодирования. Кодеки, построенные на базе данного метода, работают на скоростях не ниже 32 кбит/с. При этом полоса входного аналогового сигнала ограничена диапазоном 0,3-3,4 кГц. Для повышения качества преобразования полоса может быть расширена до 6 кГц, что соответствует скорости передачи 88 кбит/с при частоте дискретизации 12 кГц (при дальнейшем расширении полосы качество представления речи не повышается).

    На рис. 2, где приведены обобщенные кривые, характеризующие помехоустойчивость различных методов цифрового представления речи, кривая 1 соответствует ИКМ-представлению. Здесь Рош - вероятность ошибки на символ, а SNR - отношение сигнал/шум, рассчитанное через среднеквадратическую ошибку восстановления. ИКМ-кодеки имеют наихудшие показатели помехоустойчивости. На рисунке можно увидеть, что изо всех кривых (характеристик разных способов цифрового представления речи) самый короткий относительно других типов ЦПР участок А (нечувствительность к ошибкам в канале) имеет кривая 1. Кодеки могут потерять работоспособность, даже если вероятность ошибки равна 10-5, что соответствует параметрам канала среднего класса. Системы с ИКМ работают только в области нечувствительности к ошибкам в канале, но даже в этом случае вводятся специальные меры для устранения последствий возникновения одиночных ошибок. При использовании алгоритма ИКМ со скоростью передачи 64 кбит/с кодек имеет максимальную область нечувствительности к ошибкам в канале при высоком качестве восстановления. Поэтому данный алгоритм рекомендован для большинства систем цифровой передачи речи в качестве метода предварительного аналого-цифрового преобразования.

    Picture_2

    Рисунок 2.
    Помехоустойчивость различных методов цифрового представления:
    А - область нечувствительности к ошибкам;
    В - слабая чувствительность;
    С - потрея работоспособности.

    Другое направление цифрового представления речи, эффективное кодирование, иногда называют сжатием речи.

    Раньше, чем все остальные способы, для эффективного цифрового преобразования речи были разработаны вокодеры. Основываясь на выбранной модели речеобразования, вокодер с помощью алгоритма передачи анализирует параметры речевого сигнала, который поступает по каналу связи в приемник; приемный алгоритм позволяет проводить синтез сигнала. Осциллограммы исходного и синтезированного сигнала не совпадают, и речь может носить "искусственный" характер.

    Значительные результаты в области эффективного кодирования речи достигнуты на базе общего подхода "кодирования с предсказанием". Большая часть стандартизированных Международным союзом электросвязи алгоритмов кодирования относится именно к этому направлению.

    Среди кодеров формы сигнала первыми появились методы дельта-модуляции (ДМ). Аналитически они являются предельными случаями разностной ИКМ, но по ряду причин могут быть выделены в отдельный класс. Скорость передачи при дельта-модуляции соответствует частоте дискретизации (одноразрядное квантование); при скоростях 40-30 кбит/с ДМ обеспечивает более высокое качество восстановления, чем ИКМ. Кривая 2 на рис.2 характеризует помехоустойчивость ДМ. Дельта-модуляция обладает наилучшими параметрами помехоустойчивости среди всех методов кодирования. Соответствующие системы не теряют работоспособности при возникновении одиночных ошибок и их пакетов (серий) малой длительности.

    Еще один класс кодеров формы - методы дифференциальной (разностной) ИКМ (ДИКМ). Их классификационными признаками считаются наличие блока линейного предсказания авторегрессионных последовательностей (предсказателя) и использование многоуровневого (больше двух уровней) квантователя. Блок линейного предсказания может состоять из двух частей - долговременного и кратковременного предсказателей. В канал передается разность истинного и предсказанного значений сигнала (сигнал-остаток, он же - погрешность предсказания). Системы с ДИКМ обеспечивают такое качество восстановления сигнала, которое сопоставимо с предоставляемым ИКМ, и на порядок более высокую помехоустойчивость. Однако, в отличие от систем с ДМ, они теряют работоспособность при вероятности одиночной ошибки, составляющей около 5 ·10-3, и передаче пакетов ошибок малой длительности.

    К достижениям в области ЭКР можно отнести кодеры, реализующие алгоритмы анализа через синтез. Они сохраняют форму речевого сигнала (во всяком случае, к ним применима среднеквадратическая мера оценки восстановления, СКО). В этих кодерах используются алгоритмы сжатия, основанные на оценке параметров модели речеобразования, которые прежде применялись исключительно в вокодерах.

    Все описанные методы предполагают передачу большого количества параметров речевого сигнала и эквивалента сигнала-остатка (используемого разностной ИКМ), которые квантуются с разной точностью. Прежде оценка признака тон/шум считалась отличительной чертой вокодера, теперь же она осуществляется и в кодерах анализа через синтез, что стирает границы между кодерами формы и вокодерами (поэтому их иногда называют полувокодерами).

    Работа кодеков с многополосным кодированием (МПК, SubBand Coder) основана на различной чувствительности слуха к звукам, принадлежащим к разным частотным полосам. Это позволяет кодировать сигналы в полосах с разной точностью. Число полос может колебаться от 3 до 16.

    В кодерах с ортогональным преобразованием (ОПА) скорость передачи снижается за счет грубого квантования спектральных составляющих, полученных разложением в ряд в каком-либо базисе.

    Особенностью помехоустойчивости систем, основанных на последних двух методах (рис. 2, кривая 3), является то, что благодаря различной точности кодирования в полосах отсутствует пороговый переход к области неработоспособности.

    Появление методов MPE, RELP и CELP (чаще используются именно латинские аббревиатуры; русские эквиваленты названий приведены на рис. 3) связано с совершенствованием кодеров формы, которое было предпринято для сохранения качества восстановленного речевого сигнала при менее высоких скоростях. В этих методах выявляется избыточность погрешности предсказания.

    В кодерах с линейным предсказанием и усеченным возбуждением (RELP - Residual Excited Linear Prediction, ЛПУВ) сигнал погрешности ограничивается по частоте и прореживается. Кодеры с многоимпульсным возбуждением (MPE - MultiPulse Excitation, ЛПМВ) используют вместо сигнала-остатка искусственную последовательность возбуждения речевого сигнала на некотором временном интервале, параметры которой передаются в декодер. Выбор фазы такой последовательности осуществляется с помощью интерактивной процедуры по критерию близости формы исходного и синтезированного сигналов. На основе этого метода разработан алгоритм кодека стандарта GSM для подвижной связи, реализующий скорость передачи 13,8 кбит/с.

    В последнее время большую популярность приобрели кодеры CELP (Сode Excited Linear Prediction), разновидностями которых являются SELP, LD-CELP, V-CELP и A-CELP. Эти высокоэффективные кодеры обеспечивают отличное качество звука при низких скоростях (2,4-8 кбит/с). Для кодирования погрешности предсказания в них используются кодовые книги, состоящие из блоков с конечным числом символов. Перечисленные разновидности кодеров различаются способами формирования и хранения этих последовательностей. Чаще всего последовательность хранится в сжатом виде. Дополнительные буквы в названии кодера (LD, V и др.) указывают на способ реализации предсказателя, синтеза квантователя или кодовой книги. Кривая 4 на рис. 2 характеризует помехоустойчивость таких кодеров. Здесь явно видны две основные области: А соответствует помехоустойчивой работе (вероятность ошибки 10-3), В - резкому уменьшению помехоустойчивости.

    Качественные показатели методов ЦПР

    Зависимость качества звучания речи от скорости передачи (в баллах) при использовании различных методов кодирования показана на рис. 3.

    Picture_3

    Рисунок 3.
    Зависимость качества восстановления от скорости передачи для различных методов кодирования.

    По эффективности (скорости кодирования при заданном качестве) методы кодирования можно разделить на три группы. К первой группе - низкоэффективных кодеров - относятся ИКМ и АДМ (адаптивная дельта-модуляция), которые обеспечивают удовлетворительное качество звука только при скоростях передачи выше 24 кбит/с. Кодеры второй группы - ОПА, МПК, ЛПКВ, АДИКМ - позволяют реализовать удовлетворительное и отличное качество звучания при скоростях 8-32 кбит/с. В третью группу входят ЛПКВ- и ЛПМВ-кодеры, обеспечивающие отличное качество при низких скоростях.

    В большинстве алгоритмов эффективного кодирования речи вероятность однократной ошибки в двоичном симметричном канале составляет 10-4-10-3 на символ. По зависимости помехоустойчивости от скорости передачи (рис. 4) кодеры можно разделить на две группы: в первую (ИКМ, АДМ, АДИКМ) входят алгоритмы с сильной зависимостью, во вторую (МПК, ЛПКВ, ОПА, ЛПМВ) - со слабой. Под помехоустойчивостью подразумевается максимальная вероятность ошибки, при которой качество звучания сигнала (отношение сигнал/шум) снижается не более чем на 10% (в испытаниях по методу парных сравнений различия между сигналами составляют не более 20%).

    Picture_4

    Рисунок 4.
    Характеристики помехоустойчивых кодеров (условные обозначения см. на рис. 1, 3).

    Необходимо отметить, что большинство кодеров предназначены для высококачественных цифровых каналов, но, несмотря на это, допустимая и максимально удерживаемая вероятности ошибки являются стандартными характеристиками всех эффективных кодеров.

    Новые помехоустойчивые кодеры

    Проблема создания помехоустойчивых высокоэффективных кодеров является, по сути, проблемой согласования сигнала с каналом связи. Анализируя традиционные подходы к решению задачи согласования, можно отметить, что им присущи весьма существенные недостатки (например, при разделении операций эффективного и помехоустойчивого кодирования для обеспечения помехоустойчивости необходима высокая избыточность, что приводит к ужесточению требований к алгоритмам сжатия).

    Еще одна проблема связана с выбором модели канала связи. Наиболее "неприятными" считаются каналы подвижной телефонии, характеристики которых зависят от нахождения подвижного объекта; причем 90% пользователей утверждают, что качество канала постоянно меняется. Такой канал может быть описан с помощью некоторой переменной модели, например основанной на переменной вероятности ошибки. Это влияет на разработку метода помехозащиты.

    Система передачи аналогового сигнала по цифровому каналу является оптимальной, когда кодер источника обеспечивает максимальное сжатие без потерь в качестве, а цифровой канал - максимальную скорость передачи при заданной вероятности ошибки. В этом случае уменьшение избыточности входного сообщения осуществляется кодером источника, а уменьшение вероятности ошибки - кодером канала. Оба алгоритма разрабатываются независимо друг от друга. Современные методы ЦПР убирают не всю избыточность речевого сигнала, поэтому такой подход (его можно назвать универсальным, или "внешним") применяется для существующих методов ЦПР, когда разработчик не хочет или не может использовать особенности речевого сигнала и способа его преобразования для повышения помехоустойчивости.

    В рамках этого подхода используются специализированные помехоустойчивые коды, которые наиболее эффективны для алгоритмов CELP. В таких кодах учитывается взаимосвязь между отсчетами или вводится неравномерная избыточность. Наибольшую сложность представляют собой выбор и описание целевой функции синтеза кода. Описание погрешности предсказания больше всего формализовано для CELP-алгоритмов, и именно для них получены специализированные помехоустойчивые коды. При полном использовании возможностей данного подхода можно достичь очень высоких показателей помехоустойчивости.

    Другим "внешним" методом является побитная защита на основе оценки чувствительности каждого бита к ошибкам в канале. С помощью специальных тестов выявляется чувствительность передаваемых бит к ошибкам в канале. Все биты разбиваются на классы чувствительности, которые кодируются разными специально подобранными кодами. Метод позволяет снизить чувствительность к ошибкам в канале (Рош) с 10-3 до 10-2. Он принят для кодеков стандарта GSM, в которых выходной сигнал делится на шесть групп чувствительности. Система передачи оптимизируется для конкретной вероятности ошибки в канале.

    Развитием метода побитной защиты стал метод групповой защиты. Для кодирования ограниченной последовательности символов используется выбранное семейство помехоустойчивых кодов. В каждый момент сигнал кодируется одним из кодов семейства, который выбирается на основе некоей итерационной процедуры. Наибольшую сложность представляет сохранение постоянной скорости кодирования.

    Прикладные, или "внутренние", методы создаются в рамках теории локально-оптимальных систем и систем с измененной структурой. Разработка этих систем основана на следующем подходе: если система не реализует потенциально возможных характеристик, то существует взаимосвязь между эффективностью кодера источника и кодера канала. Можно создать такую структуру системы передачи, в которой кодер источника и кодер канала синтезированы совместно, хотя конструктивно разделены, а приемник объединяет декодер источника и декодер канала. Данная структура позволяет динамически управлять кодированием источника, учитывая как влияние качества канала, так и особенности речевого сигнала. Такие методы используются в помехоустойчивых квантователях, учитывающих в алгоритме синтеза вероятность ошибки в канале. Нужно отметить, что при отсутствии канальных помех все "внутренние" методы ухудшают работу системы.

    Еще одним методом является гребенчатое, или многомодовое, кодирование. Многомодовым называется комбинированный кодер источника и канала, который позволяет варьировать (в зависимости от качества канала) число бит, отводимых на помехоустойчивое кодирование, кодирование передаваемых параметров и кодирование сигнала остатка. Передатчик состоит из гребенки кодеров источника и кодеров канала. Каждый элемент гребенки вырабатывает моду (конкретный набор передаваемых бит) определенной конфигурации. Все моды пропускаются через встроенный имитатор канала, после чего принимается решение о передаче какой-либо из них.

    Приемник универсален и позволяет декодировать любую моду, распознавая ее по неявно встроенным индивидуальным признакам. Основной проблемой является синтез алгоритма приема (как правило, он строится на основе алгоритмов максимального правдоподобия). Значительную сложность представляет создание алгоритма решающего устройства и имитатора канала связи. В основном применяется имитатор двоичного симметричного канала, а решающее устройство реализуется на основе оценки среднеквадратической ошибки.

    Для этого метода автору неизвестны обобщенные оценки качества восстановления, но, основываясь на анализе временных диаграмм, можно считать, что он обеспечивает наивысшие показатели по помехозащите.

    Третьим подходом (наряду с "внешним" и "внутренним") является введение задержек передачи, что также изменяет структуру системы передачи. Задержка передачи, например на основе перемежения, используется в каналах с пакетными ошибками средней и большой длительности.

    К данному направлению также относятся кодеры, в которых интегральное качество восстановления описывается среднеквадратической ошибкой и применяется снижение скорости передачи для повышения помехоустойчивости. Решение на основании указанного метода для АДИКМ на 32 кбит/с описано в рекомендации G726 как дополнение к G721. Рекомендовано уменьшение скорости с 32 до 16 кбит/с при снижении качества восстановления ниже некоторого порога. Развитием метода является врезная (еmbedded) ДИКМ (рекомендация G727); здесь при изменении (снижении) скорости кодирования источника скорость передачи остается неизменной.

    Пока на рынке нет устройств, в которых реализованы все рассмотренные методы, но можно предположить, что скоро они появятся и займут свою нишу. Они будут называться кодеками с повышенной робастностью. Описанные здесь методы способны повысить помехоустойчивость также в тех случаях, когда имеется возможность изменить алгоритм кодирования.

    Тенденции развития ЦПР

    Решение задачи эффективного кодирования речи приближается к завершению, а задача прямого аналого-цифрового преобразования решена полностью - как теоретически, так и практически. При этом второй вывод очевиден, а первый необходимо пояснить.

    При постановке задачи эффективного кодирования речи подразумевалось, что ее решение обеспечит "возможно более полное сжатие речевого сигнала". С этой целью проводились ранее и проводятся сейчас оценки избыточности речевого сигнала. По некоторым оценкам, речь может быть сжата для передачи со скоростью 100 бит/с, и разработчики вокодеров добиваются именно такой степени сжатия. Однако даже если она будет достигнута, то не понадобится даже для систем с засекречиванием, которые предъявляют наиболее жесткие требования к сжатию.

    Теоретической основой кодеров формы и частично кодеров анализа через синтез является теорема Грея-Бергера, определяющая предел сжатия авторегрессионных последовательностей по минимально достижимой среднеквадратической ошибке. В соответствии с данной теоремой этот предел составляет выше 100 бит/с. Однако его достижение также не актуально для современных систем передачи.

    Поскольку нет практической необходимости в реализации теоретически достижимых пределов сжатия, началась массовая разработка методов кодирования, призванных обеспечить наивысшее качество при заданной скорости (о них мы рассказали в начале статьи). Однако такой подход не лишен недостатков. Вместо того, чтобы пользоваться во всех случаях одним кодером, для каждой из установленных Союзом электросвязи скоростей выбирается свой стандартный алгоритм, что приводит к невероятно жесткой конкуренции между разработчиками.

    Этот недостаток может быть устранен благодаря разработке многоскоростных перестраиваемых кодеков и кодеков, предназначенных специально для каких-либо систем передачи. Данная стратегия способна удовлетворить сегодняшние потребности телекоммуникаций и, как считает автор, обеспечивает научно-практическое решение задачи эффективного кодирования речи.

    Теория связи, как и всякая другая теория, подразумевает точное аналитическое описание метода. Описания, основанные на расчете СКО, имеют методы прямого аналого-цифрового представления речи, дельта-модуляции и ДИКМ. Основой разработки вокодеров также являются аналитические описания. Кодеры, реализующие алгоритмы анализа через синтез, являются частично вокодерами, а частично - кодерами формы, поэтому описать их чрезвычайно трудно. Автору не известно ни одного полного описания. При этом большинство кодеров патентуются как устройства, а не как методы. Подобное положение дел нельзя связывать с нежеланием разработчиков заниматься данным вопросом, ибо его решение сулит большие выгоды. Скорее всего, просто не хватает возможностей статистической теории связи; необходимы новые аналитические подходы, которые послужат развитию теории и позволят грамотнее организовывать системы передачи речи. Во всяком случае, при увеличении числа эвристических разработок (методов эффективного кодирования речи, созданных на их основе робастных методов кодирования и др.) неминуемо возникнет качественно новый подход теории телекоммуникаций, к чему должны быть готовы и "практики сетей".


    С к.т.н. Ольгой Варламовой можно связаться через редакцию журнала "Сети"

    Что Важно знать о кодеке

    Полное русское название алгоритма кодека, что позволит понять, какой метод в нем использован.

    Паспортные данные кодека (скорость передачи, гарантированное качество восстановления речи, удерживаемая вероятность ошибки).

    Для различных методов кодирования наиболее подходящими скоростями являются следующие:

  • вокодеры - меньше 2 кбит/с;
  • CELP-алгоритмы - от 2,4 до 8 кбит/с;
  • MPE, SBC, RELP - от 8 до 16 кбит/с;
  • ДИКМ, ДМ - от 16 до 32 кбит/с;
  • ИКМ - больше 32 кбит/с.
  • Возможность "подстройки" кодека, что укажет на использование в нем алгоритма "следующего поколения" (на российском рынке автор пока не встречал таких кодеков).

    Дополнительно можно поинтересоваться следующими показателями.

    Каков порядок предсказателей?
    Обычно больше шести, но чем меньше, тем лучше. При этом неважно соотношение порядков долговременного и кратковременного предсказаний.

    На какие максимальное и минимальное число уровней квантуются параметры предсказания?
    Обычно на 64 и 4 соответственно, но чем меньше уровней, тем лучше предсказатель.

    Каково соотношение числа бит сигнала остатка и параметров предсказания?
    Обычно оно составляет 1/3, но чем выше тем больше робастность.

    При выборе устройства кодирования не представляют практического интереса способы синтеза предсказателей и квантователей, формирования кодовых книг, прореживания сигналов погрешности предсказания, всевозможные усечения. Дело в том, что способы удаления избыточности представляют собой сочетание четких математических и вычислительных решений с эвристическими подходами и, как правило, являются "ноу-хау" разработчика. Большинство кодеков могут быть сделаны даже "на коленке", но важно понимать, что создать качественный CELP-алгоритм можно лишь в том случае, если для статистического формирования кодовых книг используется обширный речевой материал. Следовательно, разработка таких алгоритмов - удел очень крупных корпораций и исследовательских центров с долгой историей.

    Нужно помнить, что изготовитель устройства не всегда является и разработчиком алгоритма. В принципе, неважно, на какой элементной базе сделано устройство, хотя для известных алгоритмов (ИКМ-64, ДМ-32 и др.) предпочтительнее исполнение в спецчипе.