РОЗДІЛ 2
НАВЧАННЯ ТА АДАПТАЦІЯ В НЕЙРОМЕРЕЖНИХ МОДЕЛЯХ ВІДОБРАЖЕННЯ ДАНИХ
Незважаючи на тривалий період застосування системного аналізу в аналізі і синтезі динамічних систем, досі не сформувалися усталені його технології. За визначенням Дж.Касті [3] системний аналіз розглядається як мистецтво діяти в межах можливого. Поява нового базису для побудови інформаційних моделей - ШНМ покликана суттєво розширити ці межі. Одночасно застосування ШНМ для розв'язку складних завдань аналізу та синтезу динамічних систем вимагає певного перегляду підходів до побудови, налагодження та тестування нейромережних засобів. В першу чергу це стосується нових нейропарадигм, де відповідний досвід застосування останніх ще не набутий.
Згідно [23,20] ШНМ, в сучасному трактуванні, слід розглядати як універсальні обчислювальні пристрої, придатні для розв'язування як формалізованих задач, так і задач, що не піддаються, або погано піддаються формалізації. До формалізованих задач в першу чергу відносять обчислювальні. На даний час створено ряд нових адаптивних алгоритмів обчислювальної математики в нейромережному логічному базисі [30], що дає підстави говорити про появу нового розділу обчислювальної математики, т. з. "нейроматематики".
В даній дисертації розглядаються, в першу чергу, підходи до вирішення проблем з неявним завданням функцій і параметрів, тобто неформалізованих. До цього класу відносять задачі кластеризації, ущільнення даних, передбачення, розпізнавання, прогнозування часових послідовностей. Кожен з перелічених випадків можна звести до наступної математичної постановки. Необхідно побудувати відображення виду
таким чином, щоб для кожного вхідного вектора Х формувався вихідний (відповідний вхідному) вектор Y [21]. Тобто, перелічені вище завдання неформалізованого типу зводяться до проблеми відображення вхідних даних у вихідні.
Зазначимо, що ШНМ набувають здатності до здійснення адекватних відображень після виконання визначеної послідовності процедур з використанням вибірок навчальних та тестових даних:
* постановка завдання, визначення наборів вхідних та вихідних параметрів; формування вибірок для навчання, тестування та остаточна перевірка мережі;
* вибір архітектури мережі та алгоритмів її навчання;
* налаштування параметрів структури з використанням як наявних методик їх попереднього вибору, так і використовуючи отримані результати попереднього навчання.
Визначальною властивістю будь-якої ШНМ слід вважати здатність до навчання. Згідно [20] функція навчання систем розглядається як можливість забезпечити певні свої характеристики, використовуючи проведені раніше спостереження за необхідними реакціями (відгуками) на існуючі у відповідні моменти вхідні впливи.
Навчання здійснюється по всіх векторах навчальної вибірки, яка може вирізнятися неоднорідністю представлення окремих ситуацій, а також "старінням" даних, що здатні поступово поповнювати тренувальну множину. Отже, представляється логічним розглядати не лише процедуру навчання, яка може бути в тому числі неітеративною (одночасно по всіх елементах вибірки), а і адаптації до особливостей даних, а також неперервної адаптації до змін у даних. Тобто, пропонується ввести поряд з етапом навчання завершальний (перед застосуванням) етап адаптації мережі. Останнє вимагає комплексного підходу до створення конекціоністських ІАС, що відображається не лише в необхідних змінах до алгоритмів навчання, але і в нових принципах побудови структур ШНМ, які будуть розглянуті в даному розділі.
2.1. Особливості навчання і застосування ШНМ з ітеративним навчанням
Для ШНМ різних типів загалом виділяються етапи навчання, тестування і практичного застосування мережі. Зрозуміло, що перші два етапи можуть застосовуватися багаторазово. Найчастіше мережу навчають, проводячи обчислення при допасовуванні значень ваг wij, яке здійснюється шляхом ітерацій. Менш відомими залишаються на даний час мережі прямого поширення з неітеративним навчанням. В обох випадках ефект досягається двома способами: шляхом навчання під наглядом, або інакше - з супервізором (учителем), і шляхом навчання без нагляду (самонавчання) [31], [32].
2.1.1. Навчання з вчителем. Під час навчання з вчителем (супервізором) при надходженні вхідних даних супервізор підказує бажану відповідь мережі z. Розбіжність ?(z,Y) між дійсною Y і бажаною z відповіддю мережі є мірою помилки, застосовуваною для корекції параметрів мережі (рис.2.1).
Сукупність вхідних і вихідних зразків, які застосовуються для навчання, називається навчальною множиною.
У такому навчанні ваги мережі добираються так, щоб забезпечити наближення вихідних сигналів мережі до бажаних значень. Існують різні способи навчання із супервізором, тому важливою справою є вибір найефективнішого серед багатьох пропонованих. Найбільшу популярність з цих методів має так зване правило ДЕЛЬТИ.
Рис.2.1. Схема навчання з супервізором
Правило ДЕЛЬТИ. Це правило, розроблене Відровом (Widrow) і Гоффом (Hoff), знайшло застосування для адаптації лінійних та нелінійних елементів. У ньому вважається, що разом з кожним вхідним вектором X на нейрон подається сигнал Z (бажана відповідь нейрона на сигнал X). Для навчальної послідовності, яка має вигляд:
на j - тому кроці процесу навчання нейрон відповідає на сигнал x(j) сигналом
. (2.1)
При цьому визначається помилка:
?(j) = z(j) - y(j). (2.2)
На підставі цього сигналу помилки ?(j) та вхідного вектора X(j) можна зробити корекцію вектора ваг W(j) таким чином, щоб нейрон генерував сигнал, ближчий до заданого. Новий вектор ваг W(j+1) (на j+1-шому кроці) обчислюється за правилом ДЕЛЬТА:
W(j+1) = W(j) + ?(j) . ?(j) . X(j), (2.3)
де ? - коефіцієнт (норма) навчання.
Це правило можна легко застосувати, якщо ввести початковий вектор ваг W(0), прийнятий випадковим чином. При цьому обов'язково слід уникати прийняття однакових