ВВЕДЕНИЕ
1 Обзор подходов к идентификации автора неизвестного текста
1.1 Первые количественные методы.
1.2 Методы статистического анализа.
1.2.1 Статистические критерии.
1.2.2 Методы теории информации
1.2.3 Метод накопительных сумм
1.2.4 Метод главных компонент и линейный дискриминантный анализ .
1.3 Методы машинного обучения
1.3.1 Генетические алгоритмы
1.3.2 Метод к ближайших соседей.
1.3.3 Деревья решений.
1.3.4 Наивный байесовский классификатор.
1.3.5 Искусственные нейронные сети
1.3.6 Машина опорных векторов.
1.4 Сравнительный анализ методов идентификации автора
1.5 Выводы по главе 1
1.6 Постановка задач исследований и разработок.
2 Методика идентификации автора неизвестного текста
2.1 Обобщенная методика идентификации автора текста и формирования модели авторского стиля.
2.2 Модели представления текста в виде наборов признаков.
2.2.1 Модель Мешок слов.
2.2.2 Аграммные модели.
2.2.3 Сглаживающие модели.
2.3 Анализ структуры и характеристик текста
2.3.1 Характеристики текста, использующиеся для идентификации автора
2.3.2 Модель иерархической структуры текста.
2.4 Параметры классификаторов
2.5 Выводы по главе 2
3 Моделирование параметров авторского стиля .
3.1 Общее описание экспериментов. Алгоритм проведения экспериментов
3.2 Влияние количества и частотности признаков на точность идентификации автора.
3.3 Выбор типа ядрового преобразования машины опорных векторов.
3.4 Исследование характеристик текста в случае двух альтернатив
3.5 Исследование характеристик текста в многоклассовых задачах.
3.6 Сравнение времени обучения классификаторов.
3.7 Исследование точности идентификации на основе сочетаний характеристик текста.
3.8 Исследование техник сглаживания
3.9 Объединение полученных результатов. Использование ансамблей классификаторов
3. Решение практических задач на основе разработанной методики результаты внедрения. Идентификация автора короткого электронного сообщения
31 Идентификация автора короткого электронного сообщения.
32 Пример решения частной задачи идентификации автора
3. Рекомендации по практическому применению методики.
3. Выводы по главе 3.
4 Программный комплекс для идентификации автора письменной речи Лвторовед
4.1 Структура программного комплекса.
4.1.1 Подсистема сбора статистической информации.
4.1.2 База данных для хранения текстов и их характеристик
4.1.3 Подсистема формирования файлов для исследований
4.1.4 Аналитическая подсистема.
4.1.5 Подсистема представления результатов
4.2 Алгоритмическое обеспечение.
4.2.1 Общий алгоритм работы подсистемы сбора статистической информации
4.2.2 Алгоритм автоматического определения кодировки текста.
4.2.3 Алгоритм корректировки текста.
4.2.4 Алгоритмы разбора текста
4.2.4.1 Алгоритмы определения границ предложения
4.2.4.2 Алгоритм разбора предложения
4.2.5 Алгоритм морфологического анализа.
4.2.6 Алгоритмическое обеспечение Подсистемы формирования
4.2.6.1 Алгоритм выполнения подготовленных запросов для извлечения характеристик текста из БД.
4.2.6.2 Алгоритм формирования подготовленных для исследований файлов
4.3 Сравнение программного комплекса Авторовед с аналогами.
4.3.1 Анализ программного обеспечения в области определения авторства текстов.
4.3.2 Сравнение программного комплекса Авторовед с аналогами
4.4 Выводы по главе 4.
ЗАКЛЮЧЕНИЕ
СПИСОК ЛИТЕРАТУРЫ
- Киев+380960830922