Інверсний контекстно-асоціативний метод та програмні засоби автоматизованої орфокорекції природомовних текстових об’єктів

Автор:

Заболотня Тетяна Миколаївна

Тип роботи:

Дис. канд. наук

Рік:

2008

Артикул:

3408U004614

129 грн

Вміст

розділ 2.3). На множині
лексем , які зберігаються у даному словнику, можна визначити функцію , котра
дозволяє для кожного слова отримати множину відповідних йому синонімічних рядів
з множини усіх синсетів словника :
(2.22)
Приклад структури словника формату WordNet наведений на рис. 2.3.
Для створення адекватного вузькоспрямованого програмного словникового ресурсу,
насамперед, необхідно проаналізувати існуючі вимоги до спеціалізованої мови,
складені відповідними фахівцями, та визначити, які зміни в універсальному
машинному словнику може спричинити їх дотримання.
Рисунок 2.6. Структурна організація словника формату WordNet
Вивчення вимог до мови документів предметної галузі та їх впливу на вміст
словника. Мова будь-якої предметної галузі характеризується цілою низкою
особливостей, які можуть бути врахованими програмним забезпеченням обробки
текстів [85, 86, 87, 88]. За характером впливу на наповнення словника вимоги до
спеціалізованих мов можна розділити на 2 групи [85, 86]:
вимоги, що визначають набір слів, котрі можуть застосовуватися у текстах даної
предметної галузі, і набір слів, поява яких у документах виключена;
вимоги, які сприяють збереженню упорядкованості терміносистеми.
Наприклад, на основі результатів вивчення робіт спеціалістів у сфері юридичної
та комп’ютерної лінгвістики визначено найважливіші для розробки lingware вимоги
до мови правових документів:
* до першої групи можна віднести 2 узагальнюючі вимоги: точність і ясність, на
яких базуються емоційна /експресивна/ нейтральність лексики, її економічність,
високий ступінь абстрактності, а також простота та надійність мови права, що
виключає багатозначність [87, 88];
* до вимог, які запобігають утворенню у словнику хаотичного набору слів,
віднесено вимогу системності.
Визначимо, яким чином задоволення наведених вище вимог впливає на вміст та
структуру графа лексико-семантичного словника . Обмеженість множини слів, які
можуть використовуватися в текстах заданої предметної галузі, спричиняє
необхідність проведення відбору вершин графа G, які відповідають дозволеним
словам, та умовного або повного видалення інших вершин графа. При цьому повинна
скоротитися кількість слів, які входять до складу одного синонімічного ряду.
Вимогу щодо цілісності та упорядкованості терміносистеми можна інтерпретувати
як вимогу зв’язності графа спеціалізованого словника. Виходячи з цього,
комп’ютеризовану модифікацію універсального словникового ресурсу, який поданий
у вигляді семантичної мережі, пропонується проводити у два етапи:
* фільтрації лексики (умовного виключення зі складу словника слів, які не
можуть зустрічатися в документах даної предметної галузі);
* систематизації частини лексем, яка відібрана на етапі фільтрації
(забезпечення зв’язності графа нового словника).
Основні етапи автоматизованого формування спеціалізованого словникового
ресурсу
Етап 1. Фільтрація вмісту машинного універсального лексико-семантичного
словника. Фільтрацію наповнення WordNet-словника пропонується здійснювати
шляхом статистичної обробки репрезентативної вибірки текстів з масиву
документів, який повинен аналізуватися за допомогою даного словника. Якщо
тексти документів, на основі аналізу яких проводиться фільтрація, відповідають
усім вимогам фахівців до мови предметної галузі, то у результаті мають бути
отримані множини слів та відповідних їм синсетів, які так само задовольняють
зазначеним вимогам [88].
Крок 1.1. Вибір з документів усіх слів, їх лематизація та визначення абсолютної
частоти появи відповідних лексем у тексті (на рис. 2.3 таким словам
відповідають вершини w1-w3, w5, w6, w12). Позначимо отриману множину слів , де
. Вважатимемо, що якщо слово з тексту не міститься у словнику, то воно
помилкове, або є таким, що його можна не включати до подальшої обробки.
Крок 1.2. Знаходження синсетів, до складу яких входять відібрані на
попередньому кроці слова (відповідно на рис. 2.3 це синсети s1-s4, s7, s8). В
результаті отримуємо множину синсетів слів , де :
(2.23)
До подальшої обробки потрапляють лише слова та синсети, які належать множинам
та відповідно (тобто частота появи яких у текстах документів , більша, ніж
нуль). Як можна бачити на рис. 2.3, вибрані синсети є розрізненими. Цей недолік
усувається на наступному етапі формування спеціалізованого словника.
Етап 2. Розширення множин та з метою забезпечення зв’язності графа словника за
рахунок відновлення зв’язків між відібраними на попередньому етапі синсетами.
Для цього необхідно поновити у структурі графа G множину вершин (синсетів),
нерелевантних для текстів із даної предметної галузі, але таких, що входять до
шляхів між вершинами , відібраними на етапі фільтрації. Слід зазначити, що при
цьому потрібно поновити лише мінімальну кількість таких вершин, адже наявність
у словнику невиправдано великої кількості слів, котрі не використовуються в
текстах обраної предметної галузі, зробить модифікацію ресурсу неефективною.
Розширення множин (та відповідно) пропонується проводити у двох напрямках: за
допомогою внесення до словника вершин, з яких складаються найкоротші шляхи між
елементами , та за рахунок поновлення у складі графу словника вершин, які
належать шляхам від кожного до синсетів верхнього рівня.
Відновлення найкоротших шляхів між елементами (довжина яких не перевищує
заданий поріг maxdist) надає можливість використовувати модифікований таким
чином словник для реалізації інверсного контекстно-асоціативного методу
орфокорекції чи будь-якого іншого методу, який базується на залученні довжини
шляху між словами до процесу обробки текстових даних.
За рахунок побудови ланцюжків від елементів до синсетів верхнього рівня,
по

Ви є тут

Інверсний контекстно-асоціативний метод та програмні засоби автоматизованої орфокорекції природомовних текстових об’єктів

Вміст