Ви є тут

Вдосконалені методи та засоби сумісної передачі голосу та даних по проводових каналах зв'язку на базі xDSL технологій.

Автор: 
Чечельницький Володимир Сергійович
Тип роботи: 
Дис. канд. наук
Рік: 
2007
Артикул:
3407U000229
129 грн
Додати в кошик

Вміст

РАЗДЕЛ 2
ИССЛЕДОВАНИЕ СУЩЕСТВУЮЩИХ
МЕТОДОВ СЖАТИЯ РЕЧЕВЫХ СИГНАЛОВ
В данном разделе изложены результаты теоретических исследований, целью который является оценка возможности уменьшения скорости цифрового потока речевых сигналов. Рассмотрены дифференциальные и параметрические методы сжатия речи и их применение для сжатия речевых сигналов при их передаче по низкоскоростным каналам связи.
Оценена возможность повышения качества речи в формантных вокодерах. Проанализировано наличие в ошибке предсказания для основных видов фонем необеленного сигнала при помощи модуля боковых пиков автокорреляционной функции (АКФ).
Выявлены особенности обеления сигналов при помощи АР метода.
Результаты проведенных исследований опубликованы в работах [8, 15, 17].
2.1. Анализ методов линейного кодирования сигналов
Для анализа речь преобразовывается в форму, понятную вычислительной системе. Это может быть аналоговая форма, цифровая форма, спектральное представление, представление в виде оптического излучения и т.д. В работе рассматривается только один вид представления речевого сигнала - в цифровой форме. Такое представление вызвано тем, что речевой сигнал передается по цифровым каналам связи. Для представления акустического сигнала в цифровой форме во всех телекоммуникационных системах, имеющих дело со звуком, используется импульсная модуляция [3, 37, 38, 49, 53 - 62].
Параметрами, определяющими качество оцифровки сигнала, являются частота дискретизации () и разрядность преобразования (сколько единиц информации кодирует один отсчет). Частота дискретизации определяет максимальную частоту сигнала, которую можно записать. Типичные значения - 11025, 22050, 44100 Гц. От разрядности зависит точность кодирования информации при аналого-цифровом преобразовании. Типичные значения - 4 бит, 8 бит, 16 бит на отсчет. Естественно, чем больше разрядность и частота дискретизации, тем точнее записывается звук, но и тем больше поток информации и тем сложнее его записать или обработать.
Простейшее цифровое представление речи заключается в дискретизации речевого сигнала в соответствии с теоремой Котельникова [64]. Такое представление речевого сигнала соответствует ИКМ. Выбор частоты дискретизации зависит от конкретных условий решаемой задачи. Вокализированные звуки, в значительной мере влияющие на разборчивость речи, занимают полосу до 3 кГц. Фрикативные звуки занимают полосу до 10 кГц. В стандарте G.711 [54] полоса равна 4кГц. Для линейного квантования отношение сигнал/шум (ОСШ) равно:
ОСШ, (2.1)
где - число бит на один отсчет.
Например, при B=11 ОСШ?60дБ - мера качества хорошего телефонного канала. Добавление одного двоичного разряда для представления отсчета речевого сигнала увеличивает ОСШ на 6 дБ. Таким образом, для передачи речевых сигналов ИКМ потребуется скорость 66..220 кбит/с (2.1).
Для снижения скорости требуется сократить число двоичных единиц, выделяемых на один отсчет. Для вокализированных участков речи, имеющих большую амплитуду, можно использовать большой шаг квантования, а для невокализированных - мелкий, т.е. квантование можно выполнять с неравномерным шагом. Это стабилизирует отношение сигнал/шум и делает его не зависящим от уровня сигнала.
В этом случае уровни квантования распределены по логарифмическому закону, чтобы относительная ошибка квантования оставалась постоянной при изменении амплитуды речевого сигнала. Вместо распределения уровней квантования по логарифмическому закону можно выполнить квантование логарифма речевого сигнала. В этом случае речевой сигнал перед квантованием обрабатывается в компрессоре, а при восстановлении речевого сигнала используют экспандер. Структурная схема представлена на рис. 2.1.
Рис. 2.1 Цифровая компрессия

При использовании компрессора [54] для обеспечения ОСШ?60дБ достаточно 8 бит на один отсчет [49, 78]. Таким образом, для передачи речи с ОСШ?60дБ необходим канал в 64 кбит/с.
2.2. Анализ качества синтезированной речи при применении АДИКМ
В настоящее время для повышения эффективности использования КЛС на сети ОАО "Укртелеком" наиболее широко используется аппаратура цифрового уплотнения АЦУ-4С/Т со сжатием АДИКМ-32 [56]. Применение этого сжатия объясняется высокой оценкой по шкале MOS и простотой построения системы. На рис. 2.2 представлен голосовой канальный интервал (КИ), закодированный по А-закону (рис 2.2.а) и сжатый АДИКМ-32 (рис 2.2.б).
Рис. 2.2 Распределение битового пространства одного голосовой КИ
а) А-закон, б) АДИКМ-32
Как видно из рис 2.2.б, в голосовом КИ потока Е1 (КИ1...КИ15, КИ17...КИ31) (см. приложение Г) передается информация для двух абонентов. Применяемый в аппаратуре АЦУ-4С/Т стандарт АДИКМ-32 - G.726 [56].
Рекомендация G.726 описывает технологию кодирования с использованием АДИКМ со скоростями: 32 кбит/с, 24 кбит/с и 16 кбит/с. Процесс преобразования не вносит существенной задержки и требует от DSP 5,5 - 6,4 MIPS [78]. Структурная схема кодека приведена на рис. 2.3.
Рис. 2.3 Структурная схема кодека АДИКМ
Кодек G.726 применен совместно с кодеком G.711 для снижения скорости кодирования последнего. Структурная схема модуля цифрового уплотнения с АДИКМ сжатием речи представлена на рис. 2.4.
Счетверенный транс-кодек МТ9126 подключен через ПЛИС. ПЛИС выполняет роль преобразователя скорости между транс-кодеком и линейным процессором. Эта аппаратура позволяет повысить эффективность использования ТКС в два раза за счет применения АДИКМ.

Рис. 2.4 Структурная схема модуля цифрового уплотнения
с использованием АДИКМ

На приведенных ниже рисунках представлены временные диаграммы и СПМ для различных сигналов без АДИКМ и с АДИКМ. Листинг программы приведен в приложении Д.
Рис. 2.5 Исходная фонема "-оо-"
Рис. 2.6 Фонема "-оо-" после восстановления (1) и ошибка синтеза (2)
Рис. 2.7 Спектральная плотность мощности фонемы "-оо-".
1 - АДИКМ, 2 - оригинальная