Ви є тут

Використання вейвлет-перетворень та нейронних мереж для обробки та покращання розпізнавання мовних сигналів

Автор: 
Гудим Володимир Васильович
Тип роботи: 
Дис. канд. наук
Рік: 
2003
Артикул:
3403U003985
129 грн
Додати в кошик

Вміст

РОЗДІЛ 2
ПОБУДОВА ЕТАЛОНІВ МОВНИХ СИГНАЛІВ ТА ЇХ ДОСЛІДЖЕННЯ
2.1. Сегментація мовних сигналів
Задача визначення моментів початку і кінця фрази, складу, при наявності шуму
здійснюється шляхом сегментації є першою і однією з важливих задач обробки
мовних сигналів [34,66,68].
Під сегментацією розуміють розділення мовного потоку на певні елементи –
фонеми, склади, слова. З погляду цифрової обробки можна виділити два основних
підходи до задачі автоматичної сегментації мовного потоку. Перший полягає у
тому, що на початковій стадії обробки повинні бути чітко виділені у часі межі
слів та складів [101]. Другий підхід полягає у розділенні мовного сигналу на
прості звукові одиниці, які відповідають звукам мови, це задача розпізнавання
[102].
Потужність мовного сигналу суттєво змінюється у часі. Амплітуда невокалізованих
сегментів значно менша амплітуди вокалізованих сегментів. Подібні зміни
амплітуд добре описувати короткочасними значеннями енергії сигналу:
, (2.1)
де - віконна функція;
- кількість відліків сигналу, що використовується для обрахунку енергії;
- масив значень сигналу;
- індекс відліків центру вікна.
Замість того, щоб використовувати пряму оцінку енергії, багато систем обробки
мови використовують логарифм енергії, помножений на 10, що вимірюється у
децибелах, для емуляції логарифмічної реакції людської слухової системи рис.
2.1, [103].
Рис. 2.1. Сегментація цифрового мовного сигналу
Для цифрової обробки мовних сигналів в основному використовують вікно Хеммінга
[61-63]. На практиці бажано нормалізувати вікно таким чином, щоб енергія
сигналу до накладення вікна була б приблизно такою самою після накладення
вікна.
Короткочасне значення енергії залежить від тривалості вибраного вікна та
вагової функції вікна [23, 25, 34, 59]. Отже, за рахунок функції короткочасного
значення енергії можна визначити моменти переходу від вокалізованих ділянок до
невокалізованих і навпаки. Наприклад, для мовного сигналу “частота” рис. 2.2
а), представлена функція короткочасного значення енергії рис. 2.2 б).
Одним з недоліків функції короткочасного значення енергії є її чутливість до
великих рівнів сигналу, через, що значно спотворюється співвідношення між
значеннями послідовності .
Простим способом усунення цього недоліку є перехід до визначення функції
середнього значення:
. (2.2)
Замість суми квадратів обчислюється середня сума абсолютних значень рис. 2.2
в).
Рис. 2.2. Функція короткочасних значень енергії б), короткочасна функція
середніх значень в), функція переходу через нуль г)
Таким чином, у даному випадку різниця в рівнях між вокалізованими і
невокалізованими ділянками сигналу виражена не так чітко, як при використанні
функції енергії.
Для розділення вибираються порогові значення функції короткочасних значень
енергії і середніх значень амплітуд, після порівняння яких проводиться
сегментація.
Частота появи нулів у дискретному мовному цифровому сигналі може служити
простою характеристикою спектральних властивостей сигналу [34]. Вокалізовані
звуки характеризуються концентрацією енергії спектру у нижчих областях відносно
невокалізованих звуків. Високі частоти приводять до більшої кількості
пересічень через нуль, низькі частоти до меншої кількості пересічень через
нуль, отже існує зв’язок між числом нульових переходів і розподіленням енергії
по частотах. Можна допускати, що більшій кількості перетинів через нуль
відповідають невокалізовані сегменти мови, а меншій – вокалізовані рис. 2.2.
г).
Було згадано основні методи сегментації вокалізованих і невокалізованих
ділянок мовних сигналів. Сумісне використання вище наведених методів широко
використовується у існуючих системах обробки та розпізнавання мовних сигналів.
Недоліком, таких алгоритмів є суттєва залежність від рівня амплітуди,
необхідна адаптація для вибору порогових значень, неможливість чіткого
виділення границь між звуками, навіть деколи і складами, через малий рівень
амплітуди ряду невокалізованих звуків.
Суть другого підходу полягає у розділенні звуків, переходів фонем у слові. Це
складніша задача відносно першого підходу. В основі методу визначення фонемних
границь лежить аналіз параметрів короткочасних спектрів або кепстру [104].
Критерії сегментації зв’язані як правило з такими параметрами, як швидкість
зміни короткочасного спектру, формантних частот, ширини спектру, що задаються
пороговою швидкістю, при перевищенні якої приймається рішення про наявність
границі між звуками.
Таким чином видно, що задача формування алгоритмів сегментації тісно пов’язана
з задачею розпізнавання елементів мови, і для їх рішення можна використовувати
інтегровані алгоритми навчання, автоматичної класифікації і т. д. Часто
зустрічаються і пропуски фонемних границь, тому для корекції результатів
сегментації доцільно використовувати результати поточного розпізнавання
елементів мови. Така постановка задачі абсолютно реальна при процедурах
фонемного розпізнавання і сегментації, як єдиного процесу і приводить до
виснов-ку про комбіноване використання алгоритмів сегментації першої і другої
групи.
Запропонований метод попередньої сегментації базується на порівнянні спектрів
короткотривалих вікон аналізу цифрового мовного сигналу, оскільки
короткотривалий спектр все одно необхідно обчислювати [105]. Тривалість вікна
для такого аналізу доцільно вибирати однаковою з тривалістю квазіперіоду, що
відповідає частоті основного тону.
Фрагмент мовного потоку виділяється часовим вікном, тривалість якого впливає на
результати поділу. Найкраща тривалість вікна аналізу є квазіперіод мовного
елемента, однак не зав