Ви є тут

Інформаційна технологія автоматизованої переробки текстової інформації при створенні електронних словників-тезаурусів

Автор: 
Касілов Олег Вікторович
Тип роботи: 
Дис. канд. наук
Рік: 
2008
Артикул:
3408U005667
129 грн
Додати в кошик

Вміст

РАЗДЕЛ 2
МОДЕЛИРОВАНИЕ ЛЕКСИКОГРАФИЧЕСКИХ СИСТЕМ
2.1. Проблемы и задачи моделирования лексикографических систем
Создание адекватной модели лексикографической системе является необходимым
элементом для дальнейшего построения лексикографического процессора. При этом
необходимо рассматривать обычные словари и компьютерные словарные системы как
частный случай реализации лексикографических систем.
При моделировании лексикографических систем необходимо корректное представление
объектов языка, их элементарных составных частей и связей между ними [[clxxx]].
Развивая это направление, создадим адекватную модель лексикографической
системе, а именно – модель словаря-тезауруса.
В настоящее время для формализации теоретических вопросов лексикографии широко
используется информационное моделирование лексикографических эффектов. Под этим
моделированием понимается следующее: информационная модель, отвечающая
некоторой системе S произвольной природы, должна отображать лексикографические
аспекты системы S. В результате такого моделирования будет получена
лексикографическая система LS, отражающая некоторые элементы системы S.
Информационное моделирование лексикографических эффектов, присутствующих в
конкретной системе, и приводит к ее лексикографической системе. В итоге этого
моделирования получают структурированную лексикографическую систему,
соответствующую некоторой исходной системе.
Словарь представляет собой специальный вид текста, в котором в
систематизированном и структурированном виде представляется описание лексики
определенного языка в одном случае, либо лексики конкретной предметной области
в другом случае. Словарь следует рассматривать как специфический объект
техники, а именно - информационную систему, в которой посредством
полиграфического исполнения в бумажной копии или посредством элементов разметки
в электронном формате обозначены определенные лингвистические эффекты. Это
могут быть: – шрифтовые выделения; – позиционные размещения; – специальные
обозначения и т.п., которые играют роль идентификаторов соответствующих
информационных переменных [180].
При разработке компьютерных лингвистических систем необходимо корректное
представление объектов языка, их элементарных составных частей и связей между
ними. Поэтому разработка таких систем, как правило, начинается с классификации
языковых объектов и установления их системных характеристик [[clxxxi] -
[clxxxii] [clxxxiii]].
Разработка программных комплексов, ориентированных на решение
лексикографических задач, требует набора адекватных формальных информационных
моделей словарных систем, которые могли бы играть роль исходной концептуальной
базы для программирования лексикографического процессора или его составных
частей [1, [clxxxiv], [clxxxv],].
Лексикографические системы представляют собой особый тип информационных систем,
которые реализуют специфическую разновидность информационных эффектов, а именно
– естественно-языковой лексикографический эффект.
Интерпретация лексикографических систем, как информационных систем специального
типа, требует соблюдения единой методологии их проектирования. В первую очередь
определяется общая архитектура системы, разрабатываются составные части этой
архитектуры, связи и отображения между ними [36, 81]. В соответствии с
ANSI/X3/SPARK [81] в архитектуре информационной системы выделяются три уровня
описания данных: концептуальный, внутренний и внешний.
Определение концептуальной модели предусматривает задание набора категорий
(объектов) модели, набора операций над определенными объектами, множества
ограничений целостности, которые отображают семантику предметной области. Чтобы
удовлетворить указанным требованиям, концептуальная модель должна иметь
следующие свойства: семантичность, семиотичность, однозначность,
непротиворечивость, интегрированность, алгоритмизованность.
Концептуальная модель предметной области – это семантическая знаковая модель, в
которой в однозначном, непротиворечивом и конечном виде интегрируются разные
представления пользователей о предметной области. Одной концептуальной модели
может соответствовать несколько внутренних и (или) внешних моделей, но не
наоборот. Концептуальная модель может формулироваться в терминах одной из
известных моделей данных или в терминах, независимых от структур данных.
Концептуальная схема может описывать структурированное содержание базы данных
или предметную область. Построение адекватной концептуальной модели
лексикографической системе естественного языка является основой при создании
соответствующей компьютерной системы.
В структуре лексикографической системы имеется большой набор моделей знаний о
предметной области, отображения которых во внутреннюю и внешнюю модели должны
быть построены в явном виде или заданы любым другим способом. В общем виде
архитектура лексикографической системы записывается в таком виде:
, (2.1)
где: KM – концептуальная модель лексикографической системы LS;
ЕХМ = {exm} – множество внешних моделей LS, которые отвечают данной
концептуальной модели KM;
INM = {inm} – соответствующее множество внутренних моделей LS.
F = {f} – множество отображений KM в ЕХМ:
f : KM а ехm, где ехm ЕХМ;
G = {g} – множество отображений KM в INM:
g : KM а inm, где inm INM;
З = {h} – множество отображений INM в ЕХМ,
S = {s} – множество отображений ЕХМ в INM.
Как упоминалось выше, одной концептуальной модели может отвечать несколько
внутренних и внешних моделей. Таким образом, отображения f и g, вообще говоря,
являются неоднозначными. Ведь по определению, на множестве моделей
( inm INM, exm ЕХМ) { h H: h (inm) = exm} . (2.2)
При э