Содержание
Введение
Глава 1. Проблема обнаружения и определения авторства схожих документов
1.1 Информационный поиск и задача распознавания дублей.
1.2 Задача распознавания схожих документов.
1.3 Определение понятия схожих документов
1.4 Источники схожих документов
1.5 Основные метрики подобия документов
1.6 Методы обнаружения схожих документов.
1.7 Предварительная обработка документов.
1.8 Варианты классификации поисковых запросов
1.9 Кластеризация и классификация документов.
1. Структурносемантическое разбиение.
1. Борьба с плагиатом.
1. Постановка задачи обнаружения дублей и выделения первичного
документа
1. Выводы.
Глава 2. Разработка модели оценки схожести документов и определения первичного документа в кластере дублей.
2.1 Модель представления документов блоками
2.2 Модель классификации запросов и степень фильтрации дублей
2.3 Метод экспертных оценок для градации i фильтрации дублей
2.4 Метод определения дублей при i фильтрации.
2.5 Методы i фильтрации дублей.
2.6 Структурная схема модели определения дублей
2.7 Методы оценки эффективности алгоритмов поиска дубликатов
2.8 Определение первичного документа в кластере дублей.
2.9 Выводы.
Глава 3. Алгоритмизация процессов детектирования дублей и определения первичного документа
3.1 Алгоритмы разбиения страниц на семантические блоки.
3.2 Классификация запросов.
3.3 Алгоритм градации при i фильтрации
3.4 Алгоритм определения дублей при i фильтрации
3.5 Алгоритмы для i фильтрации.
3.6 Алгоритмы определения первичного документа.
3.7 Выводы
Глава 4. Программная реализация методов фильтрации дублей и определения первичного документа.
4.1 Структура программного обеспечения
4.2 Программная реализация
4.3 Графический интерфейс.
4.4 Последовательность работы с программой
4.5 Результаты практической апробации разработанных подходов
4.6 Выводы
Заключение.
Литература
- Київ+380960830922