Раздел 2
ПОМЕХОУСТОЙЧИВЫЕ АЛГОРИТМЫ СЕГМЕНТАЦИИ РЕЧИ
В СИСТЕМАХ ОБРАБОТКИ
2.1. Постановка задачи сегментации речи
Под сегментацией обычно понимают расчленение речевого потока на некоторые элементы - фонемы, слоги, слова (при распознавании слитной речи), как правило, связанные с фонетическим представлением речевых сообщений.
Для создания алгоритмов распознавания речи, устойчивых к действию помех, необходима помехоустойчивость оценок временных границ сегментов речи.
Рассмотрим математическую постановку задачи сегментации речи и основные особенности её решения.
Предположим, что на вход системы сегментации поступает временная последовательность отсчетов речевого сигнала , , с интервалом дискретизации , задаваемого выражением [145]
, , (2.1)
где - сигнал возбуждения речеобразующего тракта; N- количество временных отсчетов; , - коэффициенты авторегрессии, описывающей речеобразующий тракт и зависящие от информационного содержания речи диктора.
Априорная информация в виде эталонов сигнала, необходимая для алгоритмов распознавания, задаётся в виде классифицированных обучающих выборок в паузах между словами для каждого из дикторов. Считается, что время появления слова в слитном речевом сигнале априори неизвестно и заданы ограничения на длительность пауз между слогами слов.
Качество алгоритма будем оценивать величиной дисперсии D(s) оценки временного положения сегментов при отсутствии внешней аддитивной помехи и устойчивостью алгоритма s к воздействию аддитивной помехи [133]
. (2.2)
Под показателем устойчивости понимается дисперсия оценки временного положения сегментов при воздействии аддитивной помехи в канале с заданным отношением сигнал-шум.
Необходимо построить оптимальный алгоритм определения по реализациям речи моментов начала и конца сегментов, который обеспечивает максимум целевой функции в классе робастных алгоритмов.
2.2. Синтез алгоритмов сегментации слов речи
В данной работе в задаче сегментации выделяется два этапа: первый - принятие решения о присутствии речевого сигнала в заданных выборках, второй - оценивание по совокупности выборок временных границ каждого из слов речи.
Первый этап может рассматриваться как бинарная, либо многоальтернативная задача, но с последующим принятием двухальтернативного решения.
В алгоритме обнаружения речевой информации, наблюдаемой на фоне гауссовского шума используется следующее решающее правило:
- принимается гипотеза о паузе в речевом сигнале;
- отвергается гипотеза о паузе в речевом сигнале.
Здесь с - порог, определяемый в зависимости от выбранного критерия: байесовского (), максимума апостериорной вероятности (), максимума правдоподобия (), Неймана-Пирсона (из уравнения F10(с)=1-?), минимаксный (, где параметр находится из решения уравнения при решении указанной задачи).
При гауссовском распределении сигнала с нулевым математическим ожиданием решающее правило сводится к сравнению вычисленных значений с порогом. В случае
- принимается гипотеза о паузе в речевом сигнале;
- отвергается гипотеза о паузе в речевом сигнале, k-ой выборки.
Здесь , - полученные по обучающей выборке оценки корреляционных матриц шумов в паузах речи и речевого сигнала.
Для стационарных случайных процессов выполняется условие ?-коррелированности спектральных коэффициентов в базисе комплексно-экспоненциальных функций. При этом гипотеза о паузе в речевом сигнале принимается, если
.
Гипотеза о паузе в речевом сигнале, k-ой выборки отвергается, если
.
Здесь - полученные по обучающей выборке оценки корреляционной функции спектральных коэффициентов.
В случае, если форма энергетического спектра шума и речевого сигнала идентичны, т.е. , то , где - постоянный коэффициент,- передаточная функция выбеливающего фильтра. В случае, если форма энергетического спектр шума и речевого сигнала различны и , то выполняется приближение .
Если речевой сигнал пропустить через выбеливающий фильтр, алгоритм сегментации сводится к алгоритму временной обработки некоррелированных отсчетов в выборках. В последующем изложении считается, что выборки речевого сигнала, используемые в алгоритмах обработки некоррелированны. Для устранения корреляции используется декоррелирующие преобразования, например, разложение по методу Холецкого [109] обратной корреляционной
матрицы речевого сигнала на произведения нижнетреугольной и верхнетреугольной матриц.
Другим способом декорреляции речевого сигнала является его разложение по базису Карунена-Лоэва. При этом решающее правило получаем в виде
,
где - собственные числа выборочной корреляционной матрицы сигнала, - представление к-ой реализации сигнала в базисе Карунена-Лоэва с размерностью . Собственные числа и собственные векторы вычисляют в виде
,
а в случае , s>>1 вычисление упрощается к виду
.
Полагая, что в пределах выборки речевой сигнал стационарен в широком смысле, алгоритм выбеливания речевого сигнала в частотной области имеет вид [133]
, (2.3)
,
где - входные отсчеты; - амплитудно-частотная характеристика выбеливающего фильтра; - оценка энергетического спектра; - оценка корреляционной функции речевого сигнала.
На рис.2.1 приведена амплитудно-частотная характеристика фильтра для случая когда ,, , где .
На рис. 2.2а приведена корреляционная функция речевого сигнала в паузе до фильтрации, на рис. 2.2б - корреляционная функция речевого сигнала в паузе после выбеливания речевого сигнала.
Экспериментальные исследования речевых сигналов [133] показали, что одномерный в пространстве параметров частот энергетический спектр