Ви є тут

Математическое и программное обеспечение построения списков семантически близких слов на основе рейтинга вики-текстов

Автор: 
Крижановский Андрей Анатольевич
Тип роботи: 
диссертация кандидата технических наук
Рік: 
2008
Артикул:
14767
179 грн
Додати в кошик

Вміст

ВВЕДЕНИЕ.
Положения, выносимые на защиту .
1. АНАЛИЗ ПРОБЛЕМЫ АВТОМАТИЧЕСКОЙ ОБРАБОТКИ ТЕКСТА И ПОИСКА СЕМАНТИЧЕСКИ БЛИЗКИХ СЛОВ .
Проблема синонимии.
1.1 Основные алгоритмы поиска похожих интернет страниц, поиска слов близких по значению,
ВЫЧИСЛЕНИЯ МЕРЫ СХОДСТВА ВЕРШИН ГРАФА
Алгоритмы анализа гиперссылок I, , , VV.
Алгоритмы построения и анализа ссылок iii i, алгоритм извлечения
синонимов из толкового словаря и другие
Алгоритмы статистического анализа текста , поиск контекстносвязанных
Метрики
1.2 Системы и ресурсы для обработки текста.
Проект Диаяинг.
Тезаурусы , РуТез, Викисловарь
Викиресурсы.
Корпус текстов викиресурса Википедия
Другие системы.
1.3 Системы и способы графическою представления тезаурусов и результатов поиска
1.4 Постановка задачи исследования.
Выводы по главе 1
2. МЕТОДОЛОГИЧЕСКОЕ И МАТЕМАТИЧЕСКОЕ ОБЕСПЕЧЕНИЕ ДЛЯ ПОСТРОЕНИЯ СПИСКОВ СЕМАНТИЧЕСКИ БЛИЗКИХ СЛОВ В КОРПУСЕ ТЕКСТОВЫХ ДОКУМЕНТОВ С ГИПЕРССЫЛКАМИ И КАТЕГОРИЯМИ
2.1 Подход к поиску семантически близких слов
2.2 I алгоритм формализация, анализ, поиск синонимов
Формализация задачи
Дополнительные замечания.
Тематическая связность авторитетных страниц
Применение способов оценки результатов поиска с Интернет к I ачгоритму.
Поиск синонимов с помощью I алгоритма.
2.3 Л дал тированный I алгоритм, включающий алгортгтм иерархической кластеризации
Формализация понятия похожие вершины графа.
Адаптированный I алгоритм.
Кластеризтщя на основе категорий статей
Варианты объединения результатов I алгоритма и алгоритма кластеризации.
Временная сложность алгоритма
Эвристика фильтрация на основе категорий статей.
2.4 Вычисление меры сходства вершин графа. Оценка временной сложности. Эвристики
Задача поиска похожих вершин графа.
Алгоритм поиска похожих вершин графа.
Оценка временной сложности.
Эвристики
2.5 Показатели численной оценки семантической близости списка слов.
Коэффициент Спирмена.
Выводы по главе 2
3. ОРГАНИЗАЦИЯ ПРОГРАММНОГО ОБЕСПЕЧЕНИЯ ПОИСКА СЕМАНТИЧЕСКИ БЛИЗКИХ СЛОВ, АВТОМАТИЧЕСКОЙ ОЦЕНКИ ПОИСКА И МОРФОЛОГИЧЕСКОГО АНАЛИЗА СЛОВ.
3.1 Архитектура программной систебты x.
3.2 Архитектура подсистемы для удаленного доступа на основе X протокола к ПРТАММЕ морфологического анализа .
3.3 Индексирование викитекстов архитектура системы и структура индексной базы данных
Архитектура системы построения индексной БД викитекстов
Таблицы и отношения в индексной БДIII
3.4 Архитектура программной системы для автоматической оценки списков семантически
близких слов
Выводы по главе 3.
4. ЭКСПЕРИМЕНТЫ И ПРАКТИЧЕСКОЕ ИСПОЛЬЗОВАНИЕ РАЗРАБОТАННЫХ В ДИССЕРТАЦИИ АЛГОРИ ТМОВ .
4.1 Экспериментальная оценка работы адаптированного I алгоритма.
Оценка тестируемого корпуса текстов.
Эксперименты с Английской Википедией
Эксперименты с Русской Википедией.
Экспериментальное сравнение адаптированного с исходным I алгоритмом
Сравнение результатов работы I алгоритма с другими на основе 3 пар
английских слов.
Пример оценки эвристики с помощью коэффициента Спирмена.
Применение коэффициента Спирмена для оценки параметров адаптированного I алгоритма.
4.2 Сессия нормллшации слов на основе модуля i , как одного из этапов автоматической обработки текстов в системе
4.3 Индексирование викитекста инструментарий и эксперименты.
Преобразование викитекста с помощью регулярных выражений.
I индексной базы данных вики
Эксперименты по построению индексных баз данных.
Проверка выполнения закона Ципфа для викитекстов.
4.4 Эксперименты в проекте Кон текстнозависимый поиск документов в проблемно
ориентированных корпусах.
Выводы по главе 4.
ЗАКЛЮЧЕНИЕ . .
СПИСОК ИСТОЧНИКОВ