РОЗДІЛ 2
РОЗРОБКА МЕТОДУ МОДЕЛЮВАННЯ ЯКОСТІ КАНАЛУ ПЕРЕДАВАННЯ ГОЛОСОВОЇ ІНФОРМАЦІЇ
Задача автоматизації тесту MOS як найбільш комплексного і об’єктивного вимагає
розробки моделі оцінювання розбірливості мови після передавання каналом VoIP.
Ця задача відрізняється від моделювання систем розпізнавання мови постановкою:
необхідно моделювати розпізнавання не природної змістовної мови і не команд з
заданого переліку, а набір випадкових слів, які репрезентують набір звукотипів
мови. Зміна постановки задачі вимагає розробки нових підходів до моделювання.
2.1. Обґрунтування вимог до моделі оцінювання якості каналу на основі
розпізнавання голосової інформації
Для визначення вимог до моделі оцінювання якості каналу передавання голосової
інформації розглянемо суть запропонованого методу оцінювання на основі
розпізнавання голосової інформації.
Запропонований метод оцінки якості передачі звуку телекомунікаційним пристроєм
полягає в наступному.
Схема методу зображена на рис. 2.1 [25].
Нехай S – деяка еталонна множина голосових тестів (звукових файлів). Спочатку
набір S подається на вхід системи розпізнавання мови, на виході якої отримаємо
набір розпізнаних фраз Ph. Після цього набір S подається на вхід
телекомунікаційного пристрою, на виході якого отримуємо певний спотворений
набір S1. Набір S1 пропускається через систему розпізнавання RS, на виході якої
отримуємо набір розпізнаних фраз Ph1. Порівнюючи дві множини Ph та Ph1 між
собою, можна оцінити якість передачі звуку Q за допомогою телекомунікаційного
пристрою.
Запропонований метод ніяким чином не розглядає процеси, які відбуваються
всередині телекомунікаційного пристрою, а тому може бути використаний для
оцінки якості довільної системи, що перетворює звукову інформацію [26].
Також метод не спирається на особливості власне системи розпізнавання мови,
оскільки оцінка якості відбувається шляхом порівняння еталонного набору
розпізнаних фраз і спотвореним набором, тобто враховується не абсолютна
ймовірність розпізнаної фрази, а її відносна ймовірність у порівнянні з
ймовірністю розпізнавання фрази еталонної. Далі буде наведено більш детальне
роз’яснення запропонованого критерію оцінки якості.
Таким чином, для реалізації запропонованого методу необхідно визначити:
Критерії обрання множини S, які дозволяють стверджувати, що за допомогою
запропонованого методу об’єктивно перевіряється якість телекомунікаційного
пристрою, тобто рівномірно розглядається вся множина інформації, що може бути
передана через телекомунікаційний пристрій.
Критерій оцінки якості телекомунікаційного пристрою за допомогою порівняння
множин фраз (Ph та Ph1) [123, 125].
Голосову інформацію звичайно розглядають на декількох рівнях декомпозиції [71]:
Рівень змістовного тексту.
Рівень окремих змістовних фраз.
Рівень слів.
Рівень фонем.
Якість розпізнавання голосової інформації потенційно є найбільшою на найвищому
першому рівні і найменшою на останньому. Причиною цього є наявність додаткової
інформації, яка міститься у сполученні елементів нижнього рівня і може бути
використана як додатковий критерій розпізнавання на вищому рівні. Отже, якість
розпізнавання фонем може бути використана як нижня границя якості, що є
найважливішою характеристикою системи передавання інформації.
Для отримання кількісної оцінки якості системи передавання голосової інформації
можна використати два критерія:
1. Ймовірність помилки при розпізнаванні тестової інформації і перерахунок її
на оцінку MOS відповідно до табл. 1.1. Спосіб контролю якості полягає у
пропусканні тестового голосового файлу через канал VoIP, розпізнаванні
голосової інформації однією і тією ж системою розпізнавання до і після
проходження через канал, підрахунку і порівнянні ймовірностей розпізнавання.
Кількісна оцінка якості системи передавання голосової інформації підраховується
за формулою
де m - кількість фонем тесту;
- кількість фонем, розпізнаних помилково або не розпізнаних взагалі, після
передавання;
- кількість фонем, розпізнаних помилково або не розпізнаних взагалі, до
передавання.
Погіршення роздільної здатності системи розпізнавання на просторі прийнятої
інформації у порівнянні з роздільною здатністю на просторі переданої
інформації. Спосіб контролю якості полягає у пропусканні тестового голосового
файлу через канал VoIP, навчанні базової (ненавченої) моделі однієї і тієї ж
системи розпізнавання до і після проходження через канал, підрахунку і
порівнянні відстаней між фонемами (моделями фонем). Кількісна оцінка якості
системи передавання голосової інформації підраховується за формулою [25, 26]
, (2.1)
де m – кількість фонем (точок топологічного простору);
r(Fi,Fj) – відстань від i-ї фонеми до найближчої Fj, які після передавання
розпізнаються системою як різні;
r0(Fi,Fj) – відстань від i-ї фонеми до найближчої Fj, які до передавання
розпізнавалися системою як різні.
Міра відстані між фонемами F повинна задовольняти умову адитивності
Оцінка якості (2.1) здійснюється на основі моделі, яка дозволяє визначити
відстані між фонемами до і після передавання голосової інформації. Загальна
структура такої моделі зображена на рис. 2.2 [25]. Підґрунтям моделі оцінювання
якості є ПММ фонем у багатовимірному просторі ознак.
Метод оцінювання якості каналів VoIP на основі моделі рис. 2.2 передбачає:
розробку моделі багатовимірного простору фонем;
навчання початкових моделей фонем на базі наговорів;
синтез тесту, що покриває простір ознак;
розрахунок відстаней між фонемами тесту;
передавання тесту каналом VoIP;
розпізнавання фонем та навчання моделей на прийнятій голосовій інформації;
розрахунок відстаней м
- Київ+380960830922