СОДЕРЖАНИЕ
ВВЕДЕНИЕ
ГЛАВА 1. СИСТЕМНЫЙ АНАЛИЗ ПРОЦЕССА ОБРАБОТКИ ТЕКСТОВЫХ ДАННЫХ И СИСТЕМАТИЗАЦИЯ МЕТОДОВ .
1.1. Библиографические текстовые документы
1.2. Области применения методов обработки и анализа
библиографических текеговых данных
1.3. Системный анализ процесса обработки текстовой информации .
7.3.7. Этапы системного анализа
1.3.2, Формулирование цели для систем обработки текстовой информации, определение критериев достижения цели и
ограничений
1.4. Построение модели процесса обработки текстовой
информации
1.4.1. Формализация понятия затрат
1.4.2. Способы оценки быстродействия и затрат .
1.5. Формирование выборок, модели представления текстовых документов, оценка точности классификации
1.5.1. Сбор данных и формирование выборок
1.5.2. Способы представления текстовой информации .
1.5.3. Оценка эффективности функционирования системы обработки текстовой информации
1.6. Предварительная обработка текстовых данных и систематизация процедур выявления информативных признаков
1.6.1. Предварительная обработка текстовых данных .
1.6.2. О проблеме выявления информативных признаков .
1.6.3. Критерии систематизации методов обработки и анализа текстовой информации
1.6.4. Систематизация процедур выявления информативных признаков
1.7. Систематизация методов классификации текстовой
информации
1.8. Обобщение результатов систематизаций методов выявления информативных признаков и методов классификации .
1.9. Анализ результатов систематизации и определение
новых направлений для исследований
Выводы но главе
ГЛАВА 2. ПОСТРОЕНИЕ ВЫСОКОТОЧНЫХ, БЫСТРОДЕЙСТВУЮЩИХ И МАЛОЗАТРАТНЫХ КОЛЛЕКТИВОВ РЕШАЮЩИХ ПРАВИЛ ДЛЯ КЛАССИФИКАЦИИ БИБЛИОГРАФИЧЕСКИХ ТЕКСТОВЫХ ДОКУМЕНТОВ.
2.1. Основные характеристики КРП
2.1.1. Виды коллективов решающих правил
2.1.2. Сравнительный анализ стратегий принятия решений в КРП .
2.1.3. Расчет верхней точностной границы для коллективов
решающих правил
2.2. Систематизация направлений работ по синтезу КРП .
2.2.1. Способы отбора классификаторов для их объединения
в комитеты
2.2.2. Меры разнородности
2.2.3. Выявление взаимозависимости между точностью
и разнородностью классификаторов
2.3. Неоднородные КРП для решения задачи классификации текстовой информации
2,3Л. Обзор известных КРП, предназначенных для обработки и анализа текстовой информации
2.3.2. О понятии простой классификатор
2.3.3. Требования к простым классификаторам
2.3.4. Условия включения простого классификатора в КРП .
2.3.5. Требования к синтезируемым КРП
2.3.6. Процедура синтеза коллективов решающих правил на основе простых классификаторов
2.4. Оценка быстродействия методов классификации
2.4.1. Понятие элементарной операции .
2.4.2. Теоретический анализ быстродействия простых
классификаторов
2.5. Выявление простых классификаторов среди известных
процедур
Выводы но главе
ГЛАВА 3. РАЗРАБОТКА БЫСТРОДЕЙСТВУЮЩИХ МОДИФИКАЦИЙ
МЕТОДОВ КЛАССИФИКАЦИИ ТЕКСТОВЫХ ДОКУМЕНТОВ .
3.1 Анализ метода ближайшего соседа
3.2. Обзор известных модификаций метода ближайшего соседа
3.3. Разработка нового модифицированного
метода ближайшего соседа ММБС
3.3.1. Алгоритм ММБС
3.3.2. Влияние структуры выборки на качество классификации
3.5.3. О различиях решающих правил, используемых в ММБС
и методе кБ С
3.3.4. Асимптотические свойства алгоритма ММБС .
3.3.5. Анализ быстродействия ММБС
3.4. Обобщенный метод ближайшего соседа
3.4.1. Уточненная формула взвешивания
3.4.2. Алгоритм ОМБС
3.5. Процедуры редукции обучающих выборок .
3.5.1. Обзор методов редукции
3.5.2. Разработка процедуры редукции обучающей выборки
3.6. Профильные методы для классификации текстовых документов . . .
3.6.1. Статистический и теоретикоинформационный подходы для выявления информативных признаков .
3.6.2. Улучшенный критерий взаимной информации.
3.6.3. Методы 2профилей, О профилей и М1профилсй
3.7. Обобщение результатов главы
Выводы по главе
ГЛАВА 4. ЭКСПЕРИМЕНТАЛЬНЫЕ ИССЛЕДОВАНИЯ ИНДИВИДУАЛЬНЫХ МЕТОДОВ КЛАССИФИКАЦИИ И КОЛЛЕКТИВОВ РЕШАЮЩИХ ПРАВИЛ, ПОСТРОЕННЫХ НА ОСНОВЕ ПРОСТЫХ КЛАССИФИКАТОРОВ .
4.1. Организация экспериментальных исследований .
4.1.1 Исходные предположения для проведения экспериментальных исследований
4.2. Формирование выборок для исследований, предварительная обработка текстовых документов и настройка параметров методов классификации
4.2.1. Источники текстовых данных для формирования выборок .
4.2.2. Общие требования к формированию выборок .
4.2.3. Методика формирования выборок
4.3. Исследование индивидуальных методов классификации .
4.3.1. Анализ основных внешних факторов, влияющих на ошибку классификации
4.3.2. Настройка параметров методов классификации .
4.4. Синтез неоднородных КРП на основе простых классификаторов
н их экспериментальное исследование
4.4.1. Применение процедуры синтеза КРП на основе простых классификаторов
4.4.2. Условия включения редуцированных методов в КРП
4.5. Сравнительный анализ коллективных и индивидуальных
решений по точности и быстродействию
4.5.1 Расчет среднего выигрыша в точности и быстродействии
для синтезированных КРП
4.5.2. Оценка точности коллективных и индивидуальных классификаторов на новых выборках
4.5.3. Проверка статистической гипотезы о равенстве
ошибок КРП1 и базового классификатора метод центроидов
4.6. Введение в КРП операции Отказ от классификации .
Выводы по главе
ГЛАВА 5. ОПЫТ ИСПОЛЬЗОВАНИЯ РАЗРАБОТАННЫХ ПРОГРАММНЫХ СРЕДСТВ ДЛЯ РЕШЕНИЯ ЗАДАЧ ОБРАБОТКИ И АНАЛИЗА БИБЛИОГРАФИЧЕСКИХ ТЕКСТОВЫХ ДОКУМЕНТОВ
5.1. Разработка программных комплексов для автоматизированной обработки и анализа текстовой информации
5.1.1. Обоснование целесообразности разработки собственных программных комплексов
5.1.2. Структура и функциональные возможности разрабатываемых программных средств
5.2. Процедура выявления тематических журналов на порталах
издательств
5.2.7. Требования, предъявляемые к источникам информации,
и характеристики предметных областей
5.2.2. Специфика задачи выявления группы тематических журналов,
доступных в электронном виде
5.2.5. Стратегии выбора электронных журналов по заданным тематикам
5.2.4. Основные этапы выявления группы тематических журналов
на порталах издательств
5.2.5. Применение предложенной методики для отслеживания
научных публикаций в заданных предметных областях .
5.2.6. Обсуждение предложенной методики
5.3. Автоматизация процесса получения, обработки и анализа библиографических описаний журнальных статей с помощью
ПК СКАТ
5.3.1. Резул ьпгаты фш ыпрацииклассиф акации б ибл иограф и чес кого массива журнальных публикаций
5.3.2. Дополнительные возможности ГК СКА Т .
5.3.3. Построение и анализ семантического образа журнала Информационные технологии
5.4. Учебноисследовательский программный комплекс
для обработки и анализа текстовой информации
5.5. Общие замечания
Выводы по главе
ЗАКЛЮЧЕНИЕ
ЛИТЕРАТУРА
- Киев+380960830922