Ви є тут

Розробка моделей і вдосконалення структури систем інформаційного пошуку в глобальній комп'ютерній мережі

Автор: 
Дубінський Олексій Георгійович
Тип роботи: 
Дис. канд. наук
Рік: 
2002
Артикул:
0402U000329
129 грн
Додати в кошик

Вміст

РАЗДЕЛ 2
МОДЕЛИ ПРОЦЕССОВ И СИСТЕМ ИНФОРМАЦИОННОГО ПОИСКА В ИНТЕРНЕТ
2.1 Модель распространения информации в сети Интернет
Интернет становится основным каналом опосредованной передачи всех видов информации, в том числе научной и технической. Будем рассматривать процесс распространения информации в сети с помощью модели передачи информации от источника к приемнику [160]. На рис.2.1 изобразим составляющие этого канала. Источник информации, которым может являться отдельный автор, авторский коллектив или автоматическая информационная система, создает некоторый дискретный поток информации. Информация кодируется и размещается в сети в виде текстовых или графических документов. Система гиперссылок связывает размещенные документы.
Вся совокупность инфраструктуры доступа к информационным ресурсам сети образует канал связи между источником информации и потребителем. Отдельными элементами канала связи являются логические серверы Интернет, каждый из которых содержит одну или несколько коллекций (некоторых, не обязательно изменяющихся, множеств) документов, каждому из которых присвоен уникальный адрес. ИПС также являются частью этого канала связи.
Для каждой поисковой системы, все множество каналов связи разделено на две части: ?0 - множество документов, которые не известны данной ИПС, и ?1 - множество известных документов, описание которых содержится в базе данных (индексе) рассматриваемой ИПС.

Рис. 2.1. Канал связи и его элементы.
ИПС представлена тремя подсистемами: помимо ?1, элемент 3а описывает работу поисковых роботов ИПС и характеризует процесс добавления в индекс новых документов из ?0; интерфейс ИПС являются частью фильтра - блока 4. Множество известных пользователю адресов документов и интерфейс ИПС образуют фильтр, который осуществляет выбор необходимых документов из сети. В ИПС фильтр соответствует подсистемам обработки запросов и ранжирования. Пользователь является приемником информации.
Источник помех присутствует в неявном виде. Помехами являются размещенные в сети документы, которые не соответствуют потребностям приемника информации. При изменении потребностей часть этих помех становится сигналом. Потребитель может управлять только одним из трех рассматриваемых элементов ИПС - фильтром.
Для успеха поиска, пользователю необходимо построить некоторое управление ИПС. Возможные варианты организации управления представлены на рис. 2.2. Управление, осуществляющее настройку фильтра (Ф) через управляющее устройство (УУ) есть созданное пользователем описание информационной потребности. Первый вариант (У1) предусматривает непосредственное формирование потребителем (П) управляющих параметров. Второй вариант (У2) есть управление по задающему воздействию - эталону (Эт) (поиск по образцу). Третий вариант (У3) описывает управление по отклонению (От), посредством сравнения эталона с результатом фильтрации (обратная связь по релевантности).

Рис. 2.2. Варианты управления фильтром.

Основная задача обеспечения прохождения информации через сеть заключается главным образом в настройке фильтра канала связи - т.е. в построении адекватного управления ИПС. Настройка фильтра должна начинаться с построения описания искомого документа. Целесообразно сохранять найденные релевантные документы в качестве потенциальных эталонов для последующих сеансов.
Рассмотрим временные характеристики канала связи. Передача информации инициируется потребителем. Частота корректировки управления фильтра на несколько порядков выше собственных частот создания информации источниками. Таким образом, в первом приближении, процессы передачи и приема информации можно считать независимыми, полагая неизменным либо множество известных документов, либо статистику распределений потребностей пользователей.
Подчеркнем, что пропускная способность канала связи определяется в первую очередь скоростью ознакомления пользователя с новыми документами.
2.1.1 Электронные библиотеки и другие источники информации.
Каждый логический сервер сети Интернет можно рассматривать как выделенный информационный канал, который осуществляет распространение документов, произведенных источниками информации. Возможны различные варианты взаимосвязи канала и источника (рис 2.3). Документ может распространяться через множество каналов, параллельно или последовательно, возможно без ведома производителя информации. При распространении возможны искажения и потери информации.

Рис. 2.3. Информационные каналы и источники документов.

Далее будем рассматривать источники, доступом к которым посредством компьютерной сети не ограничен. Среди всего многообразия серверов WWW-среды сети Интернет можно выделить три категории таких источников: авторские сайты, сетевые СМИ и сетевые библиотеки (см. рис. 1.2). Частичное дублирование функций интернет-источников различных категорий приводит к рассмотрению отдельных выполняемых ими ролей (функций). Можно выделить три основные роли: первоисточники, коллекторы и архивы.
Будем называть информационный канал первоисточником, когда-либо полученный посредством канала документ создан эксклюзивно, для распространения только по этому каналу, либо производитель и информационный канал в некотором смысле совпадают (являются частью одной организационной структуры, либо канал управляется автором документа).
Роль первоисточников, которая ранее выполнялась печатными изданиями, все более переходит к авторским сайтам. Каждый автор или авторский коллектив, заинтересованный в распространении и/или продаже результатов своей деятельности может создать сайт для размещения своих материалов и привлечения возможных потребителей. Авторы при этом получают ряд дополнительных выгод, которые можно рассматривать как нематериальные активы. Менее выражена противоположная тенденция перехода роли первоисточников к хранилищам, (которая ранее проявлялась, например, при депонирования научных работ).
Другая категория сетев