РАЗДЕЛ 2
ИДЕНТИФИКАЦИЯ СТАЦИОНАРНЫХ НЕЛИНЕЙНЫХ
ДИНАМИЧЕСКИХ ОБЪЕКТОВ
Обучение МСП относится к виду обучения, называемому "обучением с учителем", и представляет собой итеративный процесс, на каждой итерации которого происходит вычисление выходов сети (одного или нескольких) для модели на обучающей выборке и корректировка сетевых весов на основании некоторого заранее выбранного энергетического функционала, являющегося некоторой выпуклой функцией разности между фактическим выходом сети для данной модели и желаемым выходом для этой модели . Здесь - количество выходов сети, - количество моделей. При этом архитектура сети и алгоритм обучения являются заданными, а сетевые веса будут корректироваться таким образом, чтобы выход сети был достаточно близок к желаемому (требуемому) выходу для каждой модели на заданном обучающем множестве. Так как задача обучения сети сводится к минимизации данного функционала (энергетической функции сети), от того, насколько удачно она выбрана, зависит эффективность функционирования сети.
2.1. Выбор энергетической функции ИНС
Если сеть представляет собой моделей, то полная энергетическая функция сети может быть записана так:
,(2.1)
где - частичный вклад модели в полную сетевую погрешность E. Выбор функции имеет такое же значительное влияние на производительность МСП, как и выбор алгоритма обучения. Наиболее широко используемыми функциями ошибки являются квадратичная функция ошибки
(2.2)
и нормализованная ее версия, называемая среднеквадратичной функцией
(2.3)
Преимущество функции (2.3) состоит в том, что будучи нечувствительной и к числу моделей на обучающем множестве, и к числу вершин выходного слоя сети, она может использоваться при сравнительном анализе эффективности сети в различных задачах обучения.
Важной характеристикой функций (2.2) и (2.3) является то, что рост E может быть связан с увеличением числа неклассифицированных моделей обучения; фактически, уменьшение E до минимально достижимого уровня любой из этих функций ошибки не обязательно соответствует минимальному числу нераспознанных образов. Последствием этого свойства является увеличение вероятности того, что сеть будет сходиться к областям пространства весов, где большинство моделей q классифицировано правильно, однако существует малое число неверно классифицированных моделей. Такое распределение правильно и неправильно классифицированных моделей обычно связывается с двумя типами особенностей в МСП поверхности функционала ошибки, затрудняющих процесс обучения - наличие локальных минимумов и многомерных "плато" [34]. Это приводит к тому, что используемые для обучения градиентные алгоритмы минимизации "застряют" в этих минимумах и на "плато", и процесс обучения может закончиться далеко от глобального экстремума. Многомерность рассматриваемой задачи, как уже отмечалось, и приводит к тому, что поверхность минимизируемого функционала становится многоэкстремальной, содержащей помимо глобального экстремума не только ряд локальных, но и имеющей многомерные плато.
Многомерное плато строго не определено и представляет собой область, где наклон является относительно небольшим в нескольких размерностях одновременно. Однако, плато, будучи достаточно плоским, является неразличимым из слабой стационарной точки вследствие особенностей компьютерной арифметики конечной точности.
Говорят, что МСП застрял в локальном минимуме, когда обучающаяся кривая, сформированная отображением сетевой ошибки E для последовательных периодов обучения, выравнивается на сравнительно высоком уровне. Однако такое поведение характерно для ряда случаев, которые не связаны с локальными минимумами (алгоритм сходится к седловой точке; задача имеет большие разбросы значений при решении, и алгоритм сходится к глобальному минимуму; сеть медленно пересекает плато; оценка зигзагообразно опускается к "узкой точке минимума"; один или более сетевых весов достигли состояния насыщения или алгоритм делает очень малые шаги за каждый период и т.п.). Поэтому стратегия, устраняющая одну из причин недостаточной скорости обучения, вряд ли будет эффективной для других таких причин.
Проблема локальных минимумов в поверхностях ошибки МСП обсуждалась в литературе по ИНС в течение ряда лет. Локальные минимумы, как известно, образуются в специфических тестовых задачах [35]. С другой стороны, локальные минимумы отсутствуют, если обучающаяся задача является линейно разделимой [36], если число скрытых вершин сети совпадает с количеством моделей в обучающем множестве [37], или если число моделей меньше или равно числу параметров моделей [38]. В каждом из этих случаев происходит обучение сети с выбранной архитектурой. Однако, к сожалению, ни один из имеющихся результатов не содержит практических рекомендаций для реальных приложений.
Наличие на плато "узких точек минимума" и локальных минимумов на поверхности ошибки МСП является серьезным препятствием для успешного обучения. Если МСП входит в область с очень малыми градиентами, нужно потратить множество циклов обучения прежде, чем произойдет значительное изменение E - сеть, как говорится, застряет во временном минимуме [39]. Алгоритмы обучения, основанные на методе наискорейшего спуска, замедляют обучение в узких точках минимума, а алгоритмы, не допускающие увеличения E в любом периоде, застряют в локальных минимумах. При этом никакое дополнительное обучение не приводит к улучшению результата. В терминах анализа динамики обучения и локальные, и временные минимумы тесно связаны наличием избыточных скрытых вершин в сети. Наличие локальных минимумов, как известно, в контексте обучения МСП коррелирует либо с избыточным количеством скрытых вершин, либо с насыщением скрытой вершины, либо с "мертвыми областями" пространства весов, где все скрытые вершины неактивны [40]. Следует, однако, отметить, что наличие локальных минимумов на поверхности ошибки МСП не обязательно приводит к ухудшению процесса обучения. Лок