Ви є тут

Розробка методів аналізу, розпізнавання та стиснення нестаціонарних звукових сигналів

Автор: 
Прокопенко Костянтин Ігорович
Тип роботи: 
Дис. канд. наук
Рік: 
2006
Артикул:
0406U004279
129 грн
Додати в кошик

Вміст

РОЗДІЛ 2. РОЗРОБКА МЕТОДІВ І алгоритмів сегментації
НЕСТАЦІОНАРНИХ ЗВУКОВИХ СИГНАЛІВ
Однією з задач, яка виникає при аналізі нестаціонарних звукових сигналів (НЗС),
є задача виявлення моменту зміни однієї елементарної звукової складової (ЕЗС)
іншою ЕЗС. Аналіз публікацій [88,10,87] свідчить, що задача сегментації
найбільш актуальна у випадку обробки мовних сигналів. Тому матеріал цього
розділу в основному зосереджено на обробці мовних сигналів.
Проте в п. 2.6 розглянуто застосування розроблених алгоритмів сегментації в
задачі виявлення турбулентних зон за допомогою метеорадіолокатора. Застосування
синтезованих алгоритмів в цій задачі обумовлено впливом атмосферної
турбулентності на спектр обвідної радіолокаційного сигналу, відбитого від
турбулентних зон в метеоутвореннях, а також тим, що відбитий радіолокаційний
сигнал має гаусівський розподіл і може бути описаний моделлю (1.6а)
У випадку мовних сигналів під елементарною звуковою складовою (ЕЗС) будемо
вважати фонологічну одиницю мови – фонему[61]. Мовний сигнал представляє собою
нестаціонарний випадковий процес, статистичні характеристики якого змінюються в
моменти початку звуку при переході від паузи, при переході від одного складу до
іншого, або при переході від однієї фонеми до іншої.
Задача аналізу полягає в розбитті мовного сигналу на фонеми і подальшому
розпізнаванню цих фонем.
2.1. Постановка задачі.
Основою для побудови алгоритмів сегментації мови є той факт, що фонема
представляє собою відрізок стаціонарного випадкового процесу, у якого з часом
не змінюються статистичні, зокрема спектральні, характеристики. На рис. 2.1
наведені енергетичні спектри трьох фонем. Реалізацію кожної з фонем розділено
на три інтервали по 2048 відліків. Тут наведено нормовані енергетичні спектри
мовного сигналу на фрагментах розбиття у діапазоні частот 50-2000Гц, а також
реалізації оригінального мовного сигналу, по яких отримані спектри.
З рис.2.1 можна зробити висновок, що в межах однієї фонеми спектри фрагментів,
з яких складається реалізація цієї фонеми, змінюються в невеликих межах, в той
час як зміна фонеми призводить до істотної зміни спектральних характеристик.
Отже, вивчення динаміки зміни спектральних характеристик дозволяє визначати
моменти переходів між фонемами.
Рис. 2.1. Послідовності спектрів мовного сигналу на часових
інтервалах, що відповідають звукам “А”, “О”, У”.
На сьогодні задача визначення моменту зміни характеристик мовного сигналу
вирішується за умов відносно невеликої кількості умовних станів, у яких може
перебувати мовний сигнал. Зокрема, у першому розділі дисертаційної роботи
наведено метод короткочасного аналізу, в якому мовні сигнали умовно поділяються
на вокалізовані, невокалізовані та паузи.
Проте задача визначення моментів переходу між фонемами у повній її постановці
не може бути вирішеною наведеними у першому розділі методами. Ця задача
відноситься до класу задач визначення моменту розладки нестаціонарного процесу
і має вирішуватись в термінах статистичного аналізу. В літературі пропонуються
декілька алгоритмів сегментації мовного потоку, зокрема, метод кумулятивних сум
та метод Брандта [10]. Ці методи засновані на авторегресійних моделях. Метод
Брандта дає досить якісні результати, але певну складність являє собою вибір
порогового значення, що використовується в цих моделях. Метод кумулятивних сум
дає більш якісний результат, але теж має декілька характерних недоліків, що
призводить до похибок у роботі цього методу.
Задача сегментації мовного потоку також розглядається в роботах Карпова О.Н.
[33]. Запропоновані у цих роботах методи засновані на представленні мовного
сигналу як функції двох змінних – частоти і часу (,t) і апроксимації цієї
функції композицією двовимірних функцій Гауса.
Складність задачі виявлення моментів зміни фонем полягає в апріорній
невизначеності статистичних характеристик мовного сигналу, оскільки носієм мови
може бути будь-яка людина, якій притаманні власний тембр і спектральні
характеристики голосу.
В даному розділі дисертаційної роботи запропоновано нові алгоритми пошуку
моментів переходу, що базуються на оцінці статистичних характеристик спектру
при рівномірному розбитті мовного сигналу на часові інтервали. Результати
проведених досліджень свідчать про те, що розмір кожного інтервалу має бути
досить великим, щоб охопити декілька періодів основного тону, в той же час він
має бути досить малим, щоб забезпечувати адекватну реакцію на короткочасні
швидкі зміни у мовному потоці.
2.2. Розробка інваріантного методу і синтез алгоритму сегментації
нестаціонарних звукових сигналів
Задача синтезу методу сегментації мовного сигналу полягає в оцінці моменту
зміни фонеми, тобто моменту переходу марківського процесу з одного стану в
інший. Цей момент відповідає зміні локальних характеристик сигналу, а саме,
зміні коваріаційної матриці n-вимірної щільності розподілу.
Згідно з прийнятою моделлю зміна фонеми може відбуватися в моменти часу
tkn=(kn+1), k=1,2,…. . Припустимо, що на інтервалі [t1,tn ] мала місце фонема з
номером . На інтервалі [tn+1,t2n] може бути інша фонема з номером s, а може
лишитися фонема з номером . Якщо номер фонеми змінився, то моментом зміни
вважається tn+1.
Для побудови алгоритму виявлення моменту зміни фонеми утворюються два
послідовних ковзних вікна тривалістю , в яких запам’ятовуються вибірки , де -
інтервал дискретизації процесу. Багатовимірні розподіли ймовірностей вибірок
відповідають прийнятій моделі ЕЗС (1.9). Позначимо коваріаційні матриці n -
вимірних розподілів цих вибірок Rx i Ry, відповідно. Тоді відповідні щільності
розподілів будуть мати вигляд
і (2.1)
де і - елеме