РОЗДІЛ 2
АПРОКСИМАЦІЯ КОЕФІЦІЄНТІВ АВТОРЕГРеСИВНОЇ МОДЕЛІ СИНТЕЗУ МОВИ З ВИКОРИСТАННЯМ
НЕПЕРЕРВНИХ ДРОБІВ
В цьому розділі буде описано основні моделі опрацювання та аналізу мовних
сигналів, буде дано визначення лінійного предиктивного аналізу та предиктивного
кодування. Описано методи мінімізації похибки для знаходження оптимальних
значень коефіцієнтів моделей. Також буде проаналізовано різні структури
цифрових фільтрів для реалізацій голосових моделей. Буде запропоновано
алгоритми знаходження модуля та аргумента комплексних чисел, які представлені
за допомогою неперервних дробів.
2.1. Моделі опрацювання та аналізу мовних сигналів
Сучасні системи розпізнавання голосових сигналів об’єднують в собі технології з
таких галузей сьогоденної науки, як обробка сигналів, розпізнавання образів,
природна мова, лінгвістика. Такі системи, що мають широке застосування в
проблематиці обробки сигналів зчинили справжній бум в галузі цифрової обробки
сигналів (Digital Signal Processing (DSP)). Раніше в цій галузі домінували
векторно-орієнтовані процесори і алгебраїчний математичний апарат, натомість
теперішнє покоління DSP покладається на софістичні статистичні моделі і
використовує комплексне програмне забезпечення для практичної реалізації.
Сучасні моделі розпізнавання голосових сигналів спроможні розуміти неперервну
мову на вході для словників, що складаються з сотень тисяч слів в операційних
середовищах.
Лінійний предиктивний аналіз голосових сигналів історично є найбільш важливим в
технологіях аналізу голосових сигналів. Основою цього є модель фільтра-джерела,
що представляє собою ідеальний лінійний фільтр.
Лінійне предиктивне кодування найчастіше використовується в мовному аналізі і
синезі, в передачі чи збереженні мовних сигналів. Для цієї мети, зазвичай,
використовують ідеальні коміркові структури моделювання голосового тракту
людини. Вперше ці структури з коефіцієнтами відображення були сформульовані
Маркелом, Грейєм [79] і Макхоулом [78]. Модель в просторі станів неідеальної
коміркової структури з двома та чотирма множниками на секцію для цифрових
сигнальних процесорів була проаналізована в [95]. Загальна система голосового
синтезу, приведена в [96], представлена на Рис.2.1.
Рис. 2.1. Система синтезу мови
В загальному випадку задача лінійного предиктування полягає в наступному [96,
100]. Нехай ми маємо голосовий сигнал , і нехай предиктована величина. Похибка
предиктування в цьому випадку задається наступним чином:
Ми, звичайно, хочемо мінімізувати похибку для знаходження найкращих, чи
оптимальних, значень . Визначимо короткочасову середню похибку:
Ми можемо мінімізувати похибку для кожного за допомогою диференціювання і
прирівнювання результату до нуля
У випадку коваріантного методу ми для початку дещо перевизначимо терміни
або .
Це рівняння ще відоме як рівняння лінійного предиктування (рівняння
Юле-Волкера). називають коефіцієнтами лінійного предиктування, або
предикторними коефіцієнтами. При обчисленні рівнянь для всіх значень ми можемо
записати їх в матричній формі
де
Для розв’язку даного рівняння необхідно знайти обернену матрицю:
Цей метод назвають коваріаційним методом. Зауважимо, що коваріаційна матриця є
симетричною. Швидким методом для знаходження розв’язку цього рівняння є метод
Холецького (коваріаційна матриця розбивається на нижню і верхню трикутні
матриці).
Використовуючи дещо інший підхід до мінімізації похибки, ми можемо знайти
розв’язок рівняння лінійного предиктування, використовуючи автокореляціійний
метод
де .
Матриця системи є симетричною і всі діагональні елементи рівні між собою, що
означає, що обернена матриця завжди існує і розв’язки системи знаходяться в
лівій півплощині.
Авторегресивне моделювання з використанням предикту найменших квадратів, або
лінійне предиктування, формує основу широкого спектру задач опрацювання
сигналів і комунікаційних систем, що включають адаптивне фільтрування і
контроль, моделювання мовних систем і систем кодування, адаптивне канальне
вирівнювання, оцінку параметричного спектру і системи ідентифікації.
Для реалізації лінійного предиктування даних чи цілей моделі необхідно
визначити величини коефіцієнтів лінійного предиктування, а також порядок
моделі. Деякі методи моделі вибору порядку, що часто застосовуються на
практиці, включають в себе методи інформаційного критерію, запропонованого
Акайке, метод мінімуму довжини опису, запропонованого Шварцом, і прицип
предикту найменших квадратів Рісанена. В оригінальній формі перші два критерії
включають в себе явний баланс між подібністю вхідних даних моделі і поняття
штрафу для складності моделі. Інтуїтивно в методі інформаційного критерію
основною метою є мінімізація кількості бітів, що буде необхідна для опису
даних. Коли ж дані вже можливо змоделювати параметрично і потім кодувати
блоками, використовують підхід виділення блоків подібних даних, а потім модель
штрафується додатковою кількістю бітів, необхідною для кодування її
параметрів.
Однак голосова модель основана на косинус перетворенні Фур’є для синтезу мови
має кращі властивості і застосування, меншу чутливість до ефектів квантування і
в результаті дає більш природну синтезовану мову. Параметрами цієї моделі є
коефіцієнти косинус перетворення Фур’є. Дана модель базується на косинусному
розкладі логарифмічного короткочасового голосового діапазону, і синтез
реалізований наближеним оберненим косинус перетворенням Фур’є з використанням
неперервних ланцюгових дробів. Цей підхід є параметричним і не оснований ні на
яких спрощуючих припущеннях про голосову модель, то
- Київ+380960830922