Ви є тут

Інтелектуальна система менеджменту й інтеграції різнорідної інформації на основі стандартизованих моделей знань

Автор: 
Шевченко Олександр Юрійович
Тип роботи: 
Дис. канд. наук
Рік: 
2006
Артикул:
3406U000418
129 грн
Додати в кошик

Вміст

РАЗДЕЛ 2
РАЗРАБОТКА МЕТОДОВ ДЛЯ ПОДДЕРЖКИ МЕНЕДЖМЕНТА И ИНТЕГРАЦИИ РАЗНОРОДНОЙ
ИНФОРМАЦИИ, ПРЕДСТАВЛЕННОЙ В СООТВЕТСТВИИ СО СТАНДАРТАМИ SEMANTIC WEB
Развитие информационной технологии обеспечило рост количества информационных
ресурсов. Проблема поиска необходимой информации на данный момент стоит очень
остро, современные поисковые машины просто не справляются с всевозрастающими
объёмами информационного пространства. Для решения этой задачи необходимо
применение кардинально новых методов, поскольку широко используемые
статистические методы уже полностью исчерпали свой ресурс точности поиска
информации [43]. Даже учет особенностей и индивидуальной структуры электронных
документов не позволяет со стопроцентной вероятностью производить поиск
необходимой информации [44,45]. Для решения поставленной задачи разрабатывается
технология семантического аннотирования документов, когда к каждому документу
добавляется дополнительный файл, содержащий описание этого документа в
машинно-понятной, структурно-стандартизированной форме. Поскольку аннотации
документов создаются различными людьми с использованием разнообразных синонимов
и словоформ, мы должны применять механизм стандартизации семантических
описаний. Целью этого механизма является объединение описаний в единое
информационное пространство. Обработка информационного наполнения этого
пространства осуществляется благодаря разработанным нами методам получения
новых знаний, а взаимодействие с пользователем – благодаря механизмам
формирования документов. Каждый из этих компонентов будет подробно описан
далее.
2.1 Разработка оригинальной модели представления информационных ресурсов,
обеспечивающей возможность интеллектуальной обработки информации
В виду незавершенности технологий [46,47,48,49], входящих в модель
представленную на рис. 1.5, проведена переработка этой модели с целью
приведения её к завершенному виду и адаптации для применения в рамках системы
менеджмента и интеграции разнородной информации на основе стандартизированных
моделей знаний, модель представлена на рис. 2.1.
Рис.2.1 Иерархическая схема уровней представления знаний для системы
интеллектуальной обработки информации.
Схема несколько упрощена, учитывая специфику и назначение локальной системы
интеграции информации в рамках концептуальной модели образовательного процесса.
На первом основном уровне находится информационный ресурс, выраженный в виде
электронного документа. Этот документ в рамках системы может быть
идентифицирован при помощи уникального URI. В качестве документов могут
выступать стандарты высшего образования Украины. Это обеспечивает возможность
сравнения содержания отечественных образовательных курсов с образовательными
курсами, построенными по образцам, соответствующим стандартам входящим в
Болонскую конвенцию стран. В качестве документа может выступать любой
информационный ресурс, текст любого формата или графический файл.
К каждому информационному ресурсу прикрепляется своя аннотация, выраженная в
“машинно-понятной” форме в формате RDF. Эта аннотация описывает содержимое
документа, причем от степени полноты зависит качество обработки документов.
Процесс перенесения смыслового содержания из документа в аннотацию на данный
момент не может быть полностью автоматизирован, и поэтому введен такой параметр
как электронная подпись. Электронная подпись формируется только в тех случаях,
когда процесс наполнения информационного содержания в той или иной степени
зависит от человека и именно человек должен следить за логической правильностью
введенных данных. Хотя вводится несколько критериев, характеризующих
правильность внесения информации, и в рамках работы предложены механизмы
контроля и коррекции информационных баз, только при правильном заполнении
(верном перенесении смысла) гарантируется 100% правильность вывода при анализе
и обработке информации.
Технология, благодаря которой появляется возможность формирования аннотации
ресурсов, состоит в следующем:
документ разделяется на отдельные утверждения, которые описывают то или иное
свойство, ситуацию или действие [50-52];
каждое утверждение перекодируется в форме триплета “объект-атрибут-значение” в
качестве объекта может выступать ресурс; в качестве атрибута – свойство или
ресурс; в качестве значения – значение свойства ресурса (см. рис.2.2)[53-56];
Рис. 2.2 - Графическое представление триплета
из онтологии выбираются понятия, при помощи которых и производится описание
информационного ресурса [57-60];
утверждения преобразуются в триплеты языка RDF с использованием определений,
описанных в онтологии [61-67].
Пример формирования RDF триплета приведен в приложении А.
Для каждой аннотации формируется ряд характеристик определяющих полноту,
“машиннообрабатываемость”, непротиворечивость аннотирования информационного
источника[67-73].
Коэффициент полноты аннотирования информационного источника показывает,
насколько полно произведено перенесение информации из файла ресурса в его
семантическую аннотацию. Параметр вычисляется автоматизированными системами по
формуле:
, (2.1)
где
– коэффициент полноты аннотирования информационного источника;
– количество значимых “неделимых компонентов информации” в аннотации
информационного источника;
– количество значимых “неделимых компонентов информации” в информационном
ресурсе.
Под термином “неделимый компонент информации” понимается неделимая
информационная единица, выраженная в форме фрагмента или целого предложения.
Значение этого коэффициента, близкое к 1, указывает на полное дублирован