Pадиовещание через Internet привлекает к себе все большее внимание. При стриминге аудиоданных (т. е. передаче звуковых сигналов on-line от одной к нескольким точкам) необходима определенная полоса пропускания. К сожалению, каналы Internet пока остаются очень "узкими", так как модем 28,8 кбит/с поддерживает примерно в 50 раз меньшую скорость потока оцифрованных звуковых сигналов, чем та, которая обеспечивается при прослушивании компакт-дисков. Это означает, что для передачи звука через Internet требуется эффективная компрессия сигналов.
Единственным способом оценки качества звука, подвергнутого компрессии, является прямое прослушивание. Специалистами группы Internet Radio Project Group EBU (Европейского вещательного союза) были проведены независимые испытания различных систем кодирования радиосигналов для передачи через Internet. При этом поддерживались скорости потока, приемлемые для модемов 14,4 и 28,8 кбит/с, а также для одного
В-канала сети ISDN, и использовались различные типы аудиоматералов. Необходимость в тестировании была вызвана следующими причинами:
- при оценке качества функционирования соответствующих кодирующих систем изготовители, как правило, выбирают такие аудиоматериалы, которые хорошо передаются именно данной системой;
- почти на всех выставках международного уровня для демонстрации передач по Internet Radio используются материалы, записанные на английском языке. Это не дает возможности получить ответ на вопрос, зависят ли качество и мягкость передачи аудиоматериала на других европейских языках от конкретного способа компрессии данных;
- нельзя определить и то, есть ли "качественная" разница между речевыми фонограммами мужских и женских голосов, а также между "чистой" речью и имеющей музыкальный фон. Между тем, записи последнего вида нередки в информационном радиовещании.
Системы кодирования звуковых сигналов для Internet Radio используются для сжатия цифрового потока, скорость которого при передаче звука с качеством CD-ROM, т. е. при обычной цифровой импульсно-кодовой модуляции (РСМ) кодированного звука, составляет 705,6 кбит/с на звуковой канал. С помощью существующих систем (МРEG-1 и MPEG-2 Audio) скорость потока оцифрованных звуковых сигналов снижается до 100 кбит/с без заметного ущерба для качества. Испытания показали, что скорость можно снизить и до 50 кбит/с на канал. В случае системного (on-line) распределения звука, когда необходимо применять очень низкие скорости потока, для сохранения мягкости речевого материала должна применяться очень эффективная технология компрессии.
Поскольку во время тестирования было решено использовать образцы обычного вещательного материала (а не того, который индивидуально выбирается при испытаниях конкретных систем компрессии), аудиоматериал содержал речь и музыку в "чистом" виде, а также речь с музыкальным сопровождением (фоном).
Методика проведения испытаний
Для оценки первых систем кодирования звука MPEG-Audio на Swedish Radio в 1990-1991 гг. был использован метод triple-stimulus-hidden-reference ("тройного скрытого эталона"). Однако эта методика, которая позволяет определить степень "прозрачности" звука высокого качества, требует очень много времени и не пригодна для быстрой оценки звука более низкого качества. Учитывая, что скорость передачи данных с помощью программ Internet Radio часто не превышает 28 кбит/с, особенно в случае аналоговых модемных линий, не следует ожидать, что существующие системы кодирования обеспечат получение звука высокого качества. Поэтому была выбрана другая методика субъективной оценки звучания, основанная на положениях рекомендации ITU-T P.80, которая разрабатывалась специально для выявления различий звучания в системе.
Качество звучания зависит от степени влияния нескольких деградирующих факторов. Это потери (нередко зависят от частоты), нелинейные искажения различного вида (в том числе возникающие за счет кодирования потока при низкой скорости, кодирования шума, дополнительных тонов, т. е. ложных частот), эхо разговора, временное ухудшение характеристик коммуникационного канала и т. д. Причем на качество звука могут одновременно влиять несколько факторов.
Цель тестирования состояла в оценке "поведения" популярных систем кодирования, т. е. кодирующих устройств и программ проигрывания (player), которые широко используются в приложениях Internet Radio для передачи звуковых потоков в режиме реального времени или звука при независимой передаче звукового файла (off-line audio file transfer). Испытания основывались на оценке чистоты звука при оптимальных условиях работы систем.
Ошибки во время передачи или потеря пакетов данных были исключены, а выбранная скорость потока была применимой для данного звукового сигнала. Влияние сети в реальных условиях не изучалось, поскольку невозможно провести высококачественное сравнение различных звуковых систем Internet Radio (характеристики сети со временем могут заметно меняться). Тестированию подверглись следующие кодирующие устройства и программы проигрывания для Internet Radio:
- AudioSoft Encoder & Player Version 2.2.1 (EURODAT, Франция);
- RealAudio Encoder Version 3.0.0.14 и Player Version 3.0b1a ;
- MPEG-Audio Layer II MKIT Studio Package, MUSICORE Version 1.7 (Philips Sound & Vision, Нидерланды);
- i-Media Audio Version 1.02 (Qdesign, Канада) ;
- L3ENC Version 2.61 & WinPlay3 Version 2.0 (FhG-IIS, Германия);
- StreamWorks (Xing Technologies, США);
- Telos Layer III (Telos, США).
Большинство кодеров вместе с программным обеспечением было установлено в ОС DOS, Windows 3.11, Windows NT или Windows 95. Один кодер, MPEG-Audio Layer II MKIT Studio Package, MUSICORE Version 1.7, был получен вместе с платой персонального компьютера и работал в среде Windows 3.11. Такое же ПО было установлено на рабочие станции Apple Macintosh или IBM-совместимые ПК. Инсталляция осуществлялась в среде Windows 3.11 или на Power-PC (PowerBook 5300CS) с операционной средой D17.5.2 (Масintosh). Результирующий выходной звуковой сигнал был полностью совместим с выходным сигналом программы проигрывания и MPEG-Audio Layer II.
Оказалось, что только один кодер, а именно MPEG-Audio Layer II MKIT Studio Package, может работать в режиме реального времени при любых условиях. Все остальные функционируют лишь при более высокой скорости, например на Pentium-133.
Все программы проигрывания работали в масштабе реального времени. При помощи некоторых из этих программ создавались 16-битовые линейные выходные РСМ-файлы формата WAVE (i-Nedia, WinPlay3). На остальные программы проигрывания поступал 16-битовый линейный выходной сигнал, который воспроизводится обычной звуковой картой.
Большинство используемых в настоящее время звуковых плат для ПК не удовлетворяет требованиям качества звука по АЧХ, уровню шума, рассогласованию уровней звука, стереобалансу и количеству ложных частот. Поэтому была использована профессиональная звуковая плата, Digigram PC-X9, которую обычно применяют в профессиональных аудиосерверах, цифровых монтажных системах и автоматизированных радиосистемах. К аналоговому выходу платы РС-Х9 присоединяли только один записывающий магнитофон R-DAT. В процессе преобразования звуковых сигналов (начиная от кодирования сигнала источника до составления монтажного листа (playlist) с декодированными звуковыми файлами, подвергавшимися субъективной оценке качества) применялась лишь одна конверсия АЦ/ЦА.
Звуковой материал и эксперты
Для испытаний был взят материал с "сухим" текстом, начитанным дикторами обоих полов на различных европейских языках, а кроме того, - речь с музыкальным фоном. Применялась только прямая запись на DAT-ленту - без какой-либо передачи при кодировании с низкой скоростью потока. Музыкальный материал (опера, классическая, джазовая музыка и др.) был записан в стереозвучании, а речь - в моноисполнении. В общей сложности использовано 28 испытательных материалов (время звучания - от 16 с до 1 мин 21 с). Были изготовлены специальные DAT-ленты с 12 образцами звука, записанными последовательно в виде одного пакета. Эти образцы представляли все категории звука, т. е. мужскую и женскую речь, речь с музыкальным фоном и "чистую" музыку.
Прослушивание звукового материала осуществлялось по парам А-В (А - качественный эталон, В - тот же образец, обработанный кодеком).Чтобы обеспечить экспертам возможность сосредоточения, в материал было включено несколько "пауз". Эксперты должны были оценивать ухудшения (искажения) качества звука по пятибалльной шкале: 5 - не слышно; 4 - слышно, но незаметно; 3 - немного раздражает; 2 - раздражает; 1 - очень раздражает. В качестве непрофессиональных экспертов-слушателей выступали 20 человек (в том числе сотрудники EBU, IRT). Эксперименты проводились в специальном помещении с акустической защитой.
До испытаний образцы звукозаписей переводились в цифровой формат. На выходе из декодера файлы конвертировались в обычный формат и в случайном порядке записывались на жесткий диск с помощью высококачественной рабочей станции Silicon Graphics Indy. Конверторами служили высококачественные 18-битовые цифро-аналоговые преобразователи.
Звук со всех образцов воспроизводился через стереофонические динамики (два динамика и сабвуфер), качественно воспроизводящие низкочастотный диапазон (<80 Гц) левого и правого каналов. Монофонические записи воспроизводились в левом и правом динамиках одновременно. Моно- и стереозаписи прослушивались раздельно. Независимо от состава материала (речь или музыка) он кодировался в моно- и стереовариантах.
Каждый сеанс состоял из прослушивания 12-16 сравниваемых между собой образцов звука длительностью не более 25 мин. Порядок последовательного прослушивания моно- и стереоматериала устанавливался случайным образом. Было принято допущение, что передача звука по сети происходит в "идеальных" условиях (состояние сети не менялось с течением времени).
Средняя величина субъективных оценок экспертов, доверительный интервал и разброс рассчитывались для каждого кодека, каждого образца звукового материала и каждой скорости потока данных.
Результаты испытаний
1. Качество звука, переданного через модем 14,4 кбит/с, не выдерживало никакой критики. Как отметили эксперты, искажения были "очень раздражающими", и это не зависело ни от использованной схемы кодирования звука, ни от вида испытательного материала. Уровень качества был сопоставим с качеством радиопередачи, принимаемой на коротких волнах.
2. При использовании модема 28,8 кбит/с качество звука заметно повышалось, но наблюдалась заметная разница между работой разных кодеков.
3. Приемлемое качество передачи/приема звуковых сигналов обеспечивалось при использовании В-канала ISDN мощностью 64 кбит/с. Уровень качества монозвука, полученный с помощью кодеков MPEG-Audio Layer II и Layer III, можно сравнить с высоким качеством передач в FM-диапазоне. И даже качество стереозвука было выше, чем при приеме станций в АМ-диапазоне.
Как действовать дальше и чего ждать от будущего? Для значительного повышения качества радиовещания через Internet наиболее перспективными направлениями являются разработка новых кодеков (особенно кодеков стандарта MPEG-4, использующих очень низкие скорости потоков и обеспечивающих хорошее качество речи даже при скоростях ниже 10 кбит/с) и дальнейшее увеличение мощности сети. В сочетании с использованием новых, более быстрых, аналоговых модемов или сети ISDN, ориентированной на массового потребителя, эти разработки позволят обеспечить высококачественную интерактивную радиосвязь (в том числе доставку на дом развлекательных передач).
По материалам конференции International Broadcasting Covnention, сентябрь 1997
Виктор Устинов - независимый эксперт, с ним можно связаться по телефону 267-8563.