Ви є тут

Методи добування тематичної інформації з глобальної мережі на основі агентного підходу.

Автор: 
Шевченко Олександр Володимирович
Тип роботи: 
Дис. канд. наук
Рік: 
2007
Артикул:
0407U001736
129 грн
Додати в кошик

Вміст

РОЗДІЛ 2
ФОРМАЛЬНЕ ПРЕДСТАВЛЕННЯ АЛГОРИТМУ
ІНФОРМАЦІЙНОГО АГЕНТА
У даному розділі запропоновано формальне представлення алгоритму тематичного інформаційного агента, в основу котрого покладено теоретично обґрунтований базовий фундамент здобування тематичної інформації:
* неорієнтований граф запитів G, що відображає бінарне відношення входжень термів у запити користувачів і знаходиться у фільтрі ядра запитів;
* обчислені ваги термів, що розміщені у вершинах графу G;
* дерево посилань U, в кожному вузлі якого зберігається оцінка ймовірності того, що посилання із відповідного документу вказує саме на релевантний тематиці індексу документ.
Запропоновано метод формування тематичних індексів документів та розміщення їх в індексі фільтру ядра, що включають оцінки частоти входження термів в документ, їх ваг та ймовірностей появи документів у колекції документів. Показані етапи побудови двох фільтрів - фільтра ядра індексу та фільтру архіву запитів, а також наведені методи оцінювання ваг термів документів за методом ІЛСІ, а ваг термів запиту за методом простої ітерації.
Розроблені концептуальні основи алгоритму інформаційного агента і принципи його взаємодії з іншими агентами мережі, а також дано опис функціональної архітектури інформаційного агента, його функцій і алгоритмів, орієнтованих на якісне і швидке формування відповіді на запит користувача [41, 42, 47, 63-65].

2.1. Підхід до побудови інформаційного агенту
До типів зберігання ресурсів у мережі Інтернет відносяться: окремі документи, сукупності (колекції) документів, тематичні області, бази даних, інформаційні пошукові системи [5, 6, 53, 54, 66]. По усім типам ресурсів створюються індекси для виконання таких задач:
* аналізу тексту нового документу, виділення у ньому ознак відносно предметної області та внесення їх в індекс;
* здобування тематичної інформації, ранжування результатів добування та відправка їх користувачеві.
Пошук тематичних ресурсів в Інтернет виконують агенти різного рівня, котрими є програми, які призначені для виконання запитів користувачів на різних етапах їх проходження по мережі. Особливо місце серед агентів займає інформаційний агент, який обробляє запит користувача, і поповнює індекс новими посиланнями на релевантні його тематиці документи. Для розв'язання цих задач агента нижче розглядаються два підходи для обґрунтування одного з них.
Перший підхід базований на використанні універсальних пошукових систем, що повторно надають раніше отримані дані по запитах користувачів. Мережеві роботи цих систем індексують усі нові документи, індекс яких є великою вибіркою раніше опублікованих документів і необхідний при аналізі тематичної області цих документів. Якщо одержання інформації здійснюється за допомогою автоматично згенерованих запитів у середовищі некомерційних систем, то це робиться безкоштовно. Методика одержання такої інформації є закритою (комерційною таємницєю), тому зробити висновки про характер розподілу інформації в Інтернет на основі систем пошуку в індексі комерційної системи складно. Крім того, у будь-який момент пошук може бути заборонений, через порушення деяких прав комерційних пошукових систем.
Другий підхід базується на використанні посилань на нові документи з раніше завантажених документів, визнаних релевантними тематиці індексу. Цей підхід широко використовується і вимагає великих обчислювальних ресурсів. Інформація витягається безпосередньо з мережі, алгоритм сканування Інтернет пов'язаний тематичною спрямованістю документів, що завантажуються. Ця дозволяє підбирати параметри алгоритму пошуку і мінімізувати середнє відхилення тематики завантажених документів від заданого тематичного напрямку пошуку.
Згідно даного підходу мережевий робот сканує Інтернет, що приводить до великих витрат навіть при використанні обмеженого пошуку. Крім того, пошук, що починається з деякої базової колекції документів (ядра), може не вийти за межі тематики цього ядра і, отже, можуть виявитися пропущеними важливі нові теми, не відображені в документах ядра.
У даній роботі використовується узагальнений другий підхід. В ньому пошук тематичної інформації виконують агенти різного рівня (агенти фільтратори, агенти постачальники інформації, інформаційні агенти тощо), тобто програми, які виконують окремі підзадачі обробки запитів користувачів на різних етапах їх проходження по мережі. Особливо місце серед агентів займає інформаційний агент, який є головним при виконанні запитів користувача [11, 44].
Запит до ресурсу мережі. Користувач формулює свою інформаційну потребу у вигляді запиту, який визначається на множині параметрів і має такий загальний вигляд:
Q= { Zp , Tp , Pd , Ip , Stp , Rp , Kp },
де Zp = z1 ? z2 ? z3 ? zi ? zj ?, ..., ( i=1, ...l) - ключові слова, зв'язані логічними операціями;
Tp = t1 ? t2 ? t3 ? ..., tk, де tі - терм документу для пошуку;
? - логічна операція (and, or, ...)
Pd - розмір, дата створення файлу, мова опису, форма збереження документа d ;
Stp - статус запиту (постійний чи одноразовий);
Ip - засоби пошуку інформаційних ресурсів (пошукові сервери тощо);
Rp - пріоритет запиту;
Kp - клас посилань за класифікацією стану (від 1 до 5).
Після аналізу запиту агент виконує необхідні підготовчі дії по створенню необхідного базису обробки запиту:
* побудова у дереві посилань U посилань на документи колекцій, що визнані релевантними і накопичені у ядрі фільтру документів,
* побудова графу G ваг термів запиту.
Означення 2.1. Деревом посилань U будемо називати граф з двома базовими рівнями, перший рівень - це корінь дерева, другий вузли, що містять посилання на документи ядра. Кожному вузлу v дерева надається оцінка ймовірності р(v), як посилання на релевантний тематиці індексу документ. Вузол v може мати додаткові посилання на його вагові значення wj, розміщені на нижчих рівнях цього дерева (рис.2.1).

Корінь - 1-й рівень
Первинні посилання задані менеджером - 2-й рівень
Ваги