Ви є тут

Алгоритми семантичного аналізу природномовних текстів

Автор: 
Марченко Олександр Олександрович
Тип роботи: 
Дис. канд. наук
Рік: 
2005
Артикул:
0405U002135
129 грн
Додати в кошик

Вміст

РОЗДІЛ 2.
Архітектура системи обробки
текстів на природній мові
В даному розділі описується типова архітектура системи обробки текстів
природної мови[15,45,57], в складі якої працює блок семантичного аналізу, що
використовує описані в роботі алгоритми.
Під час проведення досліджень була розроблена система обробки текстів природною
мовою[5,35], в основі якої були покладені нові принципи структурування даних
для обробки текстів. В якості бази знань використовується
онтологічно-семантична мережа[80], що системно і ієрархічно описує об'єкти,
властивості і відношення навколишнього світу або деякої предметної області.
Окремого розгляду заслуговує побудова в онтології дерева дій та відношень. Воно
системно і інтенціонально описує ієрархію дій – від абстрактних дій до більш
конкретних представників-підкласів, що дозволяє використати механізм
успадкування при описі дій та їх властивостей. В онтології концепти типу дія
розглядаються як функції, що мають набір аргументів, які відповідають
різноманітним аспектам дії. Для кожного аргументу можна задати область
визначення. Для кожного аспекту дії можна вказати, концепт якого типу тут може
бути використаний і тут же можна задати, яку синтаксичну структуру слідує
вжити. Таким чином, одержуємо прямий структурний зв'язок між семантикою та
синтаксисом. Оскільки в онтології семантично описуються об'єкти, властивості і
відношення світу, то можна за допомогою вузлів спеціального типу зберігати
прямо в онтології лексичні одиниці, що будуть відповідати цим об'єктам,
властивостям і відношенням, та які будуть їх назвами в деякій природній
мові[77,78].
Таким чином, ми отримаємо структуру, в якій структурно зв'язані семантика,
синтаксис і лексика мови[11]. Це дозволяє значно спростити процедури синтезу і
аналізу текстів природною мовою і підвищити їх ефективність.
Базисними функціями системи є аналіз, що перекладає текст природною мовою в
формальне логічне представлення його смислу[41,93], і синтез, що по логічному
представленню інформації генерує текст[15,92].
На відміну від багатьох подібних програм, система не має вузького тематичного
спрямування застосування, вона розроблена як універсальна, тобто при
необхідності на ядро системи інсталюються модулі потрібних користувачу тематик
і вона може підтримувати роботу в цих областях знань. Серед переваг потрібно
також відзначити можливість відносно легкої локалізації системи до нових мов.
Система розроблялася як ядро, що виконує базові функції обробки тексту, на
основі якого можна реалізувати ряд прикладних програм[64,107]. На основі
розробленого ядра створена система білінгвістичного семантичного аналізу та
виправлення помилок машинного перекладу “VitaminE”, створюються програми
автоматичної індексації і автоматичного реферування текстів.
Найбільш важливою частиною ядра є база знань «Семантична
онтологія»[16,81,82,85,86]. Вона інтенсивно використовується майже на всіх
етапах аналізу і результати аналізу тексту представляються також в вигляді
семантичної мережі[50,67] з можливістю додавання в головну базу знань
несуперечливих фактів, отриманих з вхідного тексту.
Стадії аналізу є стандартними: морфологічно-лексичний аналіз, синтаксичний
аналіз, семантичний аналіз.
Система “VitaminE” виправляє семантичні неоднозначності текстів машинного
перекладу за рахунок обчислення семантичного контексту та семантичної
близькості. Програма інтенсивно використовує мультилінгвістичну онтологію.
Програми автоматичної індексації і автоматичного реферування обробляють
отриману в результаті аналізу семантичну мережу вхідного тексту і використають
факти з головної бази знань, коли вимагається знання контексту.
Блок синтезу тексту, використовуючи привила з онтології і шаблони блоку
синтаксичного аналізу, будує по семантичній мережі тексту лінійні структури
речень, що заповнюються відповідними лексемами в потрібній формі за допомогою
блоку лексичного аналізу. На виході ми одержуємо текст природною мовою.

Виправленний текст
машинного перекладу.
Реферат тексту
Тема тексту
Рис. 2.1 Архітектура системи обробки природномовних текстів.
2.1. Семантична онтологія
Семантична онтологія – це ієрархічна мережа. Кожний вузол представляє концепт і
має набір зв'язків-відношень, що з'єднують цей вузол-концепт з іншими
вузлами-концептами. Тобто смисл концепту відображається його релятивною
позицією. Кожний вузол має ім'я – слово, що характеризує значення смислу
вузла.
Найбільш важливим видом зв'язків в графі є відношення «бути». Ці зв'язки
утворюють онтологічний ієрархічний граф концептів природної мови. В корні
онтологічного дерева знаходиться найбільш абстрактний об'єкт “Все”, від нього
ідуть сини “дія”, ”об'єкт”, “властивість” і “відношення”, що є виділеними в
онтології основними категоріями природної мови. Ці вузли мають, в свою чергу,
декілька менш абстрактних нащадків. Один вузол може мати декілька батьків,
тобто може успадковувати семантичні відношення і атрибути всіх своїх батьків.
Рис. 2.2 Верхівка онтологічної семантичної мережі.
Таким чином, база знань являє собою онтологічну ієрархічну мережу, що містить
множину концептів мови. Окрім вертикальних зв'язків “бути” міститься набір
горизонтальних відношень, таких як “має властивість”, “складається_з” та інші,
що описують властивості об'єктів, відношення в які вони вступають і з ким, дії
і з ким вони відбуваються і інші факти навколишнього світу.
Ієрархічність забезпечує ефективне використання механізму у