Вы здесь

Застосування вейвлет-аналізу для попередньої обробки мовних голосових сигналів в задачах сегментації, класифікації та пофонемного розпізнавання

Автор: 
Єрмоленко Тетяна Володимирівна
Тип работы: 
Дис. канд. наук
Год: 
2008
Артикул:
3408U003296
129 грн
Добавить в корзину

Содержимое

раздел 2.1), дискретизированная версия прямого и обратного НВП по формулам (2.10), (2.11) имеет большую вычислительную сложность, возрастающую с увеличением длины сигнала, и требует значительных затрат времени. Исходя из этого, в ряде задач обработки сигнала вместо непрерывного преобразования используется БВП.
Преимущества быстрого преобразования по сравнению с НВП, согласно пункту 1.3.2, состоят в следующем:
а) процесс преобразования происходит быстрее;
б) набор вейвлет-коэффициентов занимает объем, совпадающий с размером исходных данных;
в) обратное преобразование восстанавливает сигнал абсолютно точно.
Вейвлет-анализ сигналов на основе БВП аналогичен двухканальной фильтрации с помощью фильтра нижних частот и полосовых фильтров с расширяющейся полосой.
Уровни НВП и БВП не соответствуют друг другу по частотам пропускания фильтров из-за разных значений переменной масштабирования. В работе выбирается jmax - максимальный уровень разложения БВП, исходя из следующих соображений.
В предложенных ниже методиках анализ временной динамики спектра проводится с использованием фреймов длиной отсчетов, основываясь на том предположении, что в пределах одного фрейма сигнал является однородным. Максимальный уровень разложения БВП выбирается согласно (2.16):
-1, (2.16)
где , - частота дискретизации в Гц, зависит от периода основного тона и, согласно пункту 1.3.2, составляет примерно 0,02с.
При =22050 длина фрейма составляет 512 отсчетов, следовательно, максимальный уровень разложения jmax=8.
При выполнении равенства (2.16) на уровне разложения jmax на каждом фрейме сигнала содержится не менее одного вейвлет-коэффициента.
В результате применения БВП частотный диапазон разбивается на полосы фильтром нижних частот с частотой среза Гц и полосовыми фильтрами с полосами пропускания (в Гц) , . Полосы пропускания вейвлет-фильтров при частоте дискретизации =22050 Гц показаны на рис.2.6.
Рис. 2.6. Граничные частоты полос пропускания вейвлет-фильтров БВП (в Гц) для восьми уровней разложения
Поскольку свойства фильтра и качество его работы напрямую зависят не только от параметров сдвига и растяжения, но и от самого анализирующего вейвлета, то при анализе РГС с помощью вейвлет-преобразований возникает вопрос выбора наиболее информативного базиса, влияющего на качество распознавания.
2.3. Исследование вейвлет-базисов, используемых для представления звуков разных фонетических классов, на информативность
Вейвлет-преобразование обладает подвижным частотно-временным окном, что дает возможность описывать локальные особенности исследуемого сигнала, в частности, быстрые изменения его спектрального состава. Поскольку РГС характеризуется нелинейными флуктуациями различных масштабов, то вейвлет-преобразование представляется эффективным для его анализа. Однако, для более полного описания звуков разных фонетических классов, имеющих характерные спектральные особенности, единственного вейлетного базиса может оказаться недостаточно. Таким образом, оправдан мультивейвлетный подход, при котором подлежат рассмотрению результаты вейвлет-преобразования РГС, выполненного в нескольких базисах [122]. При этом возникает задача выбора оптимального базиса для исследования участков РГС, соответствующих звукам разных ШФК. Для ее может быть использован критерий, описанный в пункте 1.3.2 и основанный на энтропии (1.18).
Энтропия распределения энергии сигнала f по отношению к вейвлет-базису отражает число существенных членов вейвлет-ряда и характеризует "размазанность" исследуемого сигнала по уровням разложения. Эта величина тем меньше, чем меньше значимых уровней разложения, т.е. сигнал сконцентрирован на малом количестве масштабов. Следовательно, оптимальным базисом для анализа сигнала f является базис, обеспечивающий минимум энтропии (1.18).
В данной работе энтропия (1.18) для дискретного сигнала f рассчитывается через его коэффициенты разложения по вейвлет-базису на основе НВП следующим образом:

где - семейства вейвлетов (1.15)-(1.17), характеристики которых были рассчитаны в подразделе 2.2.
Результаты проведенных в ходе данной работы исследований приведены в таблице Б.3. Показанные в таблице значения энтропии распределения энергии исследуемых вейвлет-базисов получены для звуков, принадлежащих различным ШФК (рис. 1.1). В таблице Б.3 не приведены значения энтропии разложений по базисам при m>4, поскольку они практически не отличаются от соответствующих значений для g4 (совпадают до 4-го знака после запятой).
Данные таблицы Б.3 визуально отображает диаграмма (рис. 2.7). Здесь и далее используются следующие обозначения ШФК: Sh - шумные глухие щелевые и смычно-щелевые; P - шумные глухие смычные; Cons1 - шумные звонкие щелевые; Cons2 - шумные звонкие смычные; Son - сонанты; Vow - гласные.

Рис. 2.7. Диаграмма сравнения значений энтропии, полученных для звуков разных ШФК с помощью вейвлет-базисов НВП
Как видно из таблицы Б.3 и диаграммы (рис. 2.7), для описания звуков различных фонетических классов наиболее информативным является вейвлет Морле. Значения энтропии распределения энергии, полученные для шумных глухих щелевых и смычно-щелевых звуков по всем базисным функциям, различаются незначительно. Это объясняется тем, что вейвлет-спектры этих звуков сосредоточены на небольшом количестве уровней разложения, соответствующих высоким частотам.
В результате проведенных исследований для дальнейшего анализа, обработки и распознавания РГС на основе НВП в диссертационной работе в качестве анализирующего вейвлета выбран вейвлет Морле.
Для выбора наиболее информативного вейвлет-базиса БВП значения энтропии (1.18) на каждом уровне разложения оцениваются отдельно:
,
где , - коэффициенты аппроксимации и детализации функции f, определяемые из (2.12), - длина сигнала в отсчетах, E - энергия сигнала, определяемая как:

Общая энтропия распределения энергии является суммой

С ц