РАЗДЕЛ 2
ЗАДАЧА ФОРМАЛИЗАЦИИ ЕСТЕСТВЕННО-ЯЗЫКОВОЙ ИНФОРМАЦИИ
2.1 Уровни анализа структуры построения естественного языка
Язык – это сложный феномен, понимание которого включает такие разнообразные
процессы, как распознавание звуков и печатных букв, синтаксический разбор,
вывод семантик высокого уровня и даже учет эмоционального контекста,
передаваемого с помощью ритма и интонации. Для управления этой сложностью
лингвисты определили различные уровни анализа естественного языка: пропсодия,
фонология, морфология, синтаксический анализ, семантика, прагматика и знания об
окружающем мире [95].
Проблема понимания языка может возникать при реализации интерфейса с базой
данных, системы автоматического перевода, программы интерактивного обучения и
др. Во всех этих системах исходное предложение необходимо привести к
внутреннему представлению, отражающему его значение. Основные стадии решения
задачи понимания естественного языка:
- анализ синтаксической структуры. В процессе синтаксического разбора строится
базис для семантической интерпретации. Результаты анализа зачастую
представляются в виде дерева разбора;
- семантическая интерпретация, в результате которой формируется представление
содержания текста. В процессе семантической интерпретации используются знания о
значении слов и лингвистической структуре, в том числе синонимы существительных
или глаголов.
Одной из функций речемыслительной деятельности человека является переработка и
воспроизведение символьной информации. Тексты выступают как отображение
процесса мышления, некоторого этапа формализации мысли. Мыслительный процесс
опирается в большей степени на психологический аспект восприятия, который в
свою очередь формируется на основе окружающей информационной системы понятий.
Система понятий отражает структуру реальной действительности средствами
иерархии родо-видовых отношений. Данное положение подтверждается в ходе
изучения психологией репрезентации в памяти семантических отношений между
понятиями.
Иерархическая структура реальной действительности предполагает, что существует
вершина этой структуры – один предельно широкий класс объектов, включающий все
другие классы объектов реальной действительности, что соответствует, кстати,
принципам целостности и монизма [96]. Это значит, что деление на виды предельно
широкого класса должно производится путем выделения из всего множества
сущностей действительности подмножеств.
Предполагается следующее деление начальной вершины (назовем данный класс
понятий термином естественно-языковая информация) на следующие ветви таких
категорий как объекты, свойства и процессы. Таким образом, структуру системы
категорий можно представить в следующем виде на рисунке 2.1.
Рисунок 2.1 – Классификационная модель структуры системы категорий.
На рисунке 2.1 соответствующими блоками обозначены следующие классы понятий:
А. Объекты:
- А.1. – Сущностный объект (аналогично описанию материальной точки в физике
например: камень, дом, человек);
- А.2. – Свойственный объект (объекты, представляющие собой определенное
свойство, например: краснота, темнота, теплота);
- А.3. – Динамический объект (процесс, закрепленный в пространстве на основе,
какого либо критерия, например: полет, паника, уборка).
Б. Свойства:
- Б.1. – Сущностное свойство (свойства объектов, основанные на их материальном
значении, например: оловянный, железный, книжный);
- Б.2. – Абстрактное свойство (все свойства объектов, т.е. статическое,
непрерывное видоизменение сущности например: холодный, быстрый, ритмичный);
-Б.3.– Свойства динамических объектов (динамическое изменение объекта,
единовременное проявление свойства (данный класс объектов характеризуется в
русском языке такой частью речи как причастие и деепричастие) например:
смотрящий, упавший, летящий).
В. Процессы:
- В.1. – Сущностный процесс (процесс, определенный сущностью объекта, например:
перелопатить, глазеть, мозговать);
- В.2. – Процесс изменения свойств (статический процесс изменения свойств
объекта, например: краснеть, синеть, белеть);
- В.3. – Динамический процесс (процесс динамического изменения свойств объекта,
например: бегать, чувствовать, совершать).
Данная классификация несколько отличается от модели парных категорий
представленной в [96]. Разница заключается не в глобальной перемене взглядов
представления окружающей действительности, а в некотором уточнении структуры
системы категорий. Так в [96] ключевыми классами деления выступают такие
понятия как объекты и свойства. В приведенной выше классификации добавлен такой
элемент как процесс. Целесообразность введения данного элемента обоснована
рассмотрением одного из отображения речемыслительной деятельности в виде
текстов данных. Как известно, в частях речи как грамматических категориях «
получают языковое выражение основные общественно осознанные категории явлений и
отношений объективной действительности и – следовательно – категории
человеческого мышления: предмета (предметности, субстанции), действия
(процесса), свойства (качества), количества и т.д.» [97]
Текстуальные данные являются отображением реальной действительности. Смысловая
структура текста рассматривается как иерархия предикатов, а понимание – как
вычленение в тексте этой иерархической структуры [98]. Предикативная функция
заключается в речевом раскрытии реального содержания, связи и взаимодействия
предметов и явлений действительности. Синтаксическую заданность предикации
можно рассматривать как операциональный уровень речемыслительной деятельности.
Категория предикативности – соотносит предложение с реальностью и тем самым
придает ему к