Ви є тут

Методи і алгоритми опрацювання і компресії мовних сигналів та їх реалізація в комп'ютерних системах

Автор: 
Фаді Талал Ахмед Аль-Келані
Тип роботи: 
Дис. канд. наук
Рік: 
2006
Артикул:
0406U000925
129 грн
Додати в кошик

Вміст

РАЗДЕЛ 2
Особенности компрессии речевых сигналов в биометрических системах с
использованием ортогональных преобразований
2.1. Компрессия с использованием произвольных базисов ортогональных функций
Каждый сегмент цифрового сигнала можно представить коэффициентами разложения в
дискретном базисе ортогональных функций без всякой потери формы и параметров
сигнала. Это дает возможность использовать более гибкие методы компрессии, а
также увеличить качество скомпрессированных сигналов. Функции являются
ортогональными при выполнении условия
(2.1)
При использовании цифрового представления условие ортогональности имеет вид
(2.2)
Прямое дискретное разложение в ортогональном базисе записывается
(2.3)
где N - количество выборок в сегменте преобразования, А(m,n) - ядро прямого
преобразования
Обратное преобразование имеет вид
(2.4)
где В(n,m) - ядро обратного преобразования .
В матричном представлении прямое и обратное преобразования записываются
(2.5)
Для унитарных преобразований матрица . Матрицы A и В называют операторами
прямого и обратного преобразования.
В системах передачи речевого сигнала, с компрессией на основе разложения в
ортогональном базисе функций, рис. 2.1, полностью устраняется совокупность
минимальных коэффициентов разложения сегмента сигнала, которыми можно
пренебречь, или передавать, но с меньшей точностью.
Рис. 2.1. Структурная схема системы передачи речевого сигнала с использованием
компрессии на основе разложения в ортогональном базисе функций.
На приемной стороне может отсутствовать возобновление потерянных коэффициентов
разложения, при этом они приравниваются к нулю. Но в таком случае ухудшается
общее качество компрессированого сигнала.
В математике известно достаточно большое количество ортогональных
преобразований, таких как, например: Фурье, Уолша, синусное, косинусное,
наклоненное и др.
Выбрав соответствующее преобразование, можно достичь разных результатов как
компрессии, так и качества самого компрессованого сигнала. От этого зависит
форма искажений, которые возникают при компрессии.
Данная работа имеет целью нахождение лучшего из известных базисов ортогональных
функций для компрессии речевых сигналов.
2.2. Базисы ортогональных функций
2.2.1. Преобразование Фурье
Разложение сигнала в базисе ортогональных функций (БОФ) Фурье, с помощью
которого возможно нахождение спектра сигнала, наиболее часто используется в
радиотехнике.
Ядро прямого дискретного преобразования Фурье находится, как [37]
(2.6)
В общем случае ортогональные функции Фурье имеют комплексный характер. На рис.
2.2 представлен модуль шести первых функций Фурье
Рис. 2.2.. Модуль первых шести ортогональных функций Фурье.
Для более глубокого представления свойств БОФ введем понятие
среднестатистического уровня коэффициентов разложения (СРКР) сегмента сигнала.
Он находится как усреднение каждого i-го коэффициента разложения для большого
количества сегментов сигнала, сформированного разными дикторами в разных
ситуациях.
Математически это записывается
(2.7)
где М - количество сегментов разложения, N - количество коэффициентов
разложения сегмента, f( ) - разложение сегмента сигнала в БОФ.
БОФ в котором максимальные значения СРКР сосредоточиваются в узкой области,
имеет большие потенциальные возможности для качественной компрессии, так как
основная энергия сигнала сосредоточивается в узкой области, которую и нужно
передавать на приемную сторону с наименьшими потерями.
Для практического нахождения СРКР образован сигнал, который состоит из фраз,
вымолвленных одиннадцатью разными дикторами, и который имеет 2659328 выборок
длительностью пять с половиной минут.
Из-за симметричности спектра, для дискретного преобразования Фурье, и для
наглядности, нулевой коэффициент (относительная частота), перенесен на середину
графика, рис. 2.3.
Рис. 2.3.. Среднестатистический уровень коэффициентов разложения для
преобразования Фурье.
Середина интервала отвечает нулевой частоте, а конечное значение приходится на
частоту 4 кГц, так что речевой сигнал является низкочастотным сигналом.
В этом и в последующих описаниях преобразований будет представлено только
прямое преобразование, так как найти обратную матрицу ортогонального
преобразования чисельными методами не является сложным заданием, а поскольку
почти для всех преобразований функции прямого и обратного преобразования
являются идентичными.
2.2.2. Синусное преобразование
Синусное преобразование формируется на основе тригонометрической функции
синуса; ядро прямого дискретного преобразования которого вычисляем по [37].
(2.8)
Функции синусного преобразования имеют вид рис. 2.4.
Рис. 2.4.. Шесть первых функций синусного преобразования.
Рис. 2.5. Среднестатистический уровень коэффициентов разложения для синусного
преобразования.
Среднестатистическое распределение коэффициентов разложения представлено на
рис.2.5.
2.2.3. Парное симметричное преобразование косинуса
Если сегмент сигнала, который подлежит преобразованию в БОФ, можно записать
как
(2.9)
тогда новообразованный сегмент симметричен относительно точки (-1/2). Проведя
аналитическое преобразование Фурье вектора (2.9) и учитывая симметричность,
получаем ядро симметричного парного преобразования косинуса
(2.10)
где
Сами функции парного симметричного преобразования косинуса графически
представлены на рис. 2.6, а среднеквадратический уровень коэффициентов
разложения в БОФ на рис. 2.7.
Рис. 2.6. Шесть первых функций парного симметричного преобразования косинуса.
Рис. 2.7. Среднестатистический уровень коэффициентов разложения для парного
симметричного преобразования косинуса.