РОЗДІЛ 2
РОЗРОБКА МАТЕМАТИЧНИХ МОДЕЛЕЙ ПРОЦЕСУ
АНАЛІЗУ І КЛАСИФІКАЦІЇ ГОЛОСОВИХ КОМАНД
2.1 Вибір критерію ефективності СРМ
При розробці СРМ виникає проблема створення математичного апарату для
проектування ефективних систем розпізнавання, призначених для розв’язання
конкретних прикладних задач (диктування тексту, голосове керування побутовими
приладами, організація менеджменту документообігу в офісі). Ключовою задачею
при цьому є вибір критерію ефективності. Отримання такого критерію дозволило б
поставити і вирішити задачу знаходження оптимальної стратегії розпізнавання,
орієнтованої на задані умови задачі розпізнавання: тип мови, обсяг словника,
рівень завад, технічні можливості заданого обчислювального пристрою.
Формування адекватних критеріїв ефективності можна здійснити на основі
рекомендацій, що відображують надбаний досвід системного проектування та
дослідження операцій [17, 44, 76]. Правильно вибрані критерії ефективності
повинні задовольняти низці вимог, основними з яких є:
відповідність цільовому призначенню системи;
критичність до параметрів, що визначають якість функціонування системи;
достатньо проста обчислюваність;
нормованість;
універсальність (можливість використання критерію для порівняльної оцінки
будь-якої пари систем, що розв’язують різні задачі).
Особливістю систем автоматичного розпізнавання мови (САРМ), як і інших складних
систем, є необхідність їх оцінки за багатьма частинними показниками якості, з
яких найбільш часто вживаними є такі:
Е - достовірність розпізнавання;
tr - час розпізнавання;
О - обсяг потрібної пам'яті;
tr - час приведення системи в готовність;
С - вартість системи.
Показники 3, 4 з визначеними вагами входять в критерій вартості С, тому їх
можна вилучити з списку частинних критеріїв. Таким чином, основними частинними
критеріями для оцінки ефективності САРМ є достовірність розпізнавання та
вартість. Використання їх утруднюється тими обставинами, що різні системи
вирішують різні задачі і працюють в різних умовах. Це не дозволяє провести
порівняльного аналізу якості САРМ, що вирішують різні задачі розпізнавання.
Тому в роботі за загальносистемний критерій використовується узагальнений
функціонально-статистичний критерій [44], модифікований належним чином до
системи мовного спілкування шляхом належного вибору потенціальної і реальної
САРМ [17, 18]:
, (2.1)
де і - функціонально-статистичні критерії для реальної і потенціальної САРМ
відповідно;
(2.2)
- задана достовірність розпізнавання;
- кількість інформації, яку дістає реальна і потенціальна системи відповідно в
одиницю часу;
- вартість реальної і потенціальної систем відповідно.
За модель потенціальної системи вибрано модель слухової системи, оскільки вона
використовує найбільш ефективну систему ознак і оптимальні способи їх
зображення, а також оптимальні процедури розпізнавання. Слухова система є
ідеальною ціллю функціонування декодера інформації з мовного сигналу для
заданого словника і рівня оточуючих завад.
Для проведення порівняльного аналізу СРМ різних виробників, що використовують
різні математичні моделі процесу розпізнавання мови, в дисертаційній роботі
пропонується використовувати інший критерій ефективності:
, (2.3)
де - достовірність розпізнавання фраз, що належать дискурсу системи
розпізнавання;
- відсоток відмов від розпізнавання фраз, що не належать дискурсу системи
розпізнавання;
- кількість фраз дискурсу системи розпізнавання;
- середня довжина фраз дискурсу (слово);
- середній час розпізнавання.
де - кількість правильно розпізнаних фраз;
- загальна кількість тестових фраз, що належать дискурсу системи
розпізнавання.
де - кількість фраз, що були помилково розпізнані системою розпізнавання як
такі, що належать дискурсу СРМ;
- загальна кількість тестових фраз, що не належать дискурсу системи
розпізнавання.
2.2. Розробка методу оцінки ефективності СРМ
2.2.1. Оцінка інформативності СРМ на лексичному рівні
За умови виконання припущення про статистичний характер розподілу ознак мовних
образів є можливою побудова Байєсівського класифікатора, для чого будуються
вирішувальні функції наступного вигляду:
, (2.4)
де - вирішувальна функція приналежності образу до -го класу;
- імовірність спостереження мовного повідомлення ;
- імовірність приналежності мовного образу до класу .
При побудові СРМ доцільним є припущення про те, що існують такі комбінації
параметрів СРМ, при яких досягається мінімізація помилки розпізнавання системи
в цілому. Через складу математичну форму помилки розпізнавання в теорії
складних систем використовують принцип мінімізації ентропії, величина якої
знаходиться в тісному зв’язку з величиною помилки розпізнавання [17, 44, 76].
Розглянемо інформаційний канал (рис.2.1), на вхід якого передаються мовні
повідомлення , а на виході сприймаються повідомлення .
Задача побудови моделі потенційної СРМ може бути описана наступним чином [6,
7]:
Дано:
Інформаційний канал передачі мовного повідомлення з характеристиками:
- словник слів української мови;
- імовірності подібності слів словника ;
- рівень шуму навколишнього середовища (дБ).
Потрібно:
Визначити кількість інформації, яку отримує потенціальна СРМ.
Рис.2.1. Інформаційний канал передачі мовного повідомлення
Центральним поняттям в цій моделі є інформація, яка спостерігається на виході
дискретного чи неперервного випадкового процесу [17, 44]:
, . (2.5)
Кількість інформації, яку отримує потенціальна система розпізнавання, дорівнює:
(2.6)
де ентропія повідомлення до його передавання, пов'язана з апріорною ймовірністю
окремого повідомленнянаступним виразом:
. (2.7)
Апріорна ймовірність може визначатися статистичним шля