ГЛАВА 2
МЕТОДЫ И АЛГОРИТМИЗАЦИЯ В ЗАДАЧАХ ОБРАБОТКИ И ИДЕНТИФИКАЦИИ РЕЧЕВЫХ СИГНАЛОВ
В главе изложена детализация задач, решаемых в диссертации, и методы их
решения: задачи пословного и фонемного распознавания речи [88; 142]; физическая
структура речевого сигнала и его описание [15; 16; 17; 89; 92; 99; 112; 115;
117; 118; 119; 120; 121; 122; 123; 124; 125; 127; 131; 139; 141];
алгоритмизация сегментации речи [99; 130]; сплайн-синтез и идентификация
фонемно-слогового распознавания [88; 142]; описание речевой выборки как
сплайн-синтез фонемно-слоговой последовательности; задача фонемно-слогового
распознавания; принципы и методы моделирования речевых сигналов [104; 125; 126;
133; 145; 146].
Постановка задачи структурной аппроксимации информации о речевом сигнале
Исходя из общего направления данного исследования, а также и знаний о
структуре речевого сигнала, задача обработки, описания и распознавания речи
заключается в структурной аппроксимации как совокупности компонент, так и
иерахии категорий информации по правилу: "от информации о речевом сигнале к
речевой информации". Таким образом, задачей структурной аппроксимации является
обеспечение соответствия между параметрическим описанием и символьным
представлением речи.
В зависимости от категории информации (уровня) аппроксимация может иметь
числовое и нечисловое представление. Параметрическое и фонемное описания
являются числовыми; символьный и словесный уровни могут быть числовыми и
нечисловыми; смысловой уровень оперирует с нечисловыми единицами описания.
При параметрическом и фонемном описаниях наилучшее приближение
аппроксимируемой и аппроксимирующей функций достигается по минимуму
среднеквадратичной ошибки приближения в заданных классах ортогональных функций
{ yi(t)}
.
Описание речевого сигнала s(t) или спектра S(w) и получение параметрического
представления - это их простая аппроксимация в дискретном виде
F(,t)=
где yi(t) - некоторый базисный набор ортогональных функций.
Эффективные варианты структурной аппроксимации - это преобразование, основанное
на разностной схеме последовательного извлечения составляющих сигнала
(consecutive extraction transform - CET), которое определяет распределенную
частотную функцию (РЧФ) и полосную частотную функцию (ПЧФ) речеобразующего
тракта, а также сплайн-синтез и сплайн-идентификация речевых
последовательностей.
Для символьного, словесного и смыслового описаний аппроксимация применяется в
смысле наилучшей подгонки в базисе лексических единиц (фонем, символов, слов)
предыдущего уровня по минимуму среднеквадратичной ошибки приближения.
Для поставленной задачи важна такая иерархия решений: пословное, фонемное и
сегментно-слоговое распознавание, которое осуществляется различными видами
ортогональных и неортогональных преобразований, предназначенных для получения
параметрического представления, в котором ослабляется влияние шумов, а также
наложений индивидуальности и эмоционального состояния, для чего применяются
одномерное сплайн-описание спектров. Для сегментации речи разработан метод
верификации временной последовательности параметров. Задача идентификации
решается как синтез и сопоставление траекторий параметров, которые существенно
зависят от вида решения: пословное, фонемное или сегментно-слоговое
распознавание. На верхнем уровне этого сопоставления находится двухмерное
сплайн-описание сегментно-слоговой последовательности.
2.1. Задачи пословного и фонемного распознавания речи [88; 142]
Наиболее простым и общепринятым в идентификации речи является пословное
распознавание для заданного словаря. Простота заключается в исходном наборе
максимальных по длине речевых единиц - слов и фраз. Чаще такой подход называют
распознаванием команд. Что касается минимальных речевых единиц, то на них
никаких ограничений не накладывается, в крайнем случае, минимальные и
максимальные речевые единицы могут совпадать. Обычно осуществляется внутреннее
членение команд на некоторые речевые единицы, которые присущи данной команде
или группе команд в зависимости от решения задачи сегментации. Такого типа
сегменты образуются при использовании групповых признаков. В частности признаки
"тон", "шум", "пауза" реализуют грубую сегментацию сигнала на речевые единицы
переменной длины и переменного фонемного состава, обеспечивая высокое качество
сегментации и высокую надежность распознавания команд, в которых содержится
равномерное чередование указанных признаков. Включение других групповых
признаков увеличивает ненадежность сегментации и, как правило снижает общую
надежность распознавания. Переход к сегментации, близкой к членению на фонемы
по групповым признакам, вообще невозможен, так как выделение таких признаков
связано с заданием пороговых значений зависящих от множества факторов: диктора,
микрофона, состояния говорящего.
В общем случае надежность распознавания речи определяется надежностью,
полнотой и дикторонезависимостью способа сегментации. В зависимости от решаемой
задачи, объема распознаваемого словаря и применяемого оборудования могут быть
реализованы различные уровни сегментации, при этом функция сегментации будет
составлять ядро системы обучения и распознавания речи.
Таким образом, задача пословного распознавания может быть сформулирована
следующим образом.
Пусть задан словарь слов и фраз {Wk } из N слов, для каждого слова заданы
эталонные последовательности параметров {Yk }. Каждое слово wk содержит nk
символов, объединяемых в nk групп в слове, каждая группа в с
- Київ+380960830922