Оглавление
I. Введение
2. Нейронные, сети и смежные алгоритмы анализа данных и их применение для решения обратных задач______________________________________________________12
2.1. Сеги с обратным распространением ошибки и их основные архитектуры _______________________________________________________________
12
2.2. Нейронные сети с общей регрессией 19
2.3. Метод группового учета аргументов______________________________23
2.4. Оценка погрешностей решения обратных задач с номошыо HI JC _26
2.5. Генетические алгоритмы ______________________________________28
2.6. Предобработка и компрессия данных _____________________________31
2.7. Применение нейронных сетей для решения обратных задач__________35
3. Методические постановки обратной задачи при использовании методов, управляемых данными. Свойства, отличия и области применения ИНСдля решения
обратных задач_______________________________________________________________39
3.1. Методические постановки задачи при использовании методов,
управляемых данными________________________________________________________39
3.2. Свойства, отличия от других методов и области применения ИНС
для решения обратных задач_____________________________________________ 42
3.3. Защищаемые положения раздела 3____________ _ _ 44
4. Решение обратных задач спектроскопии с помощью ПС при реализации методической постановки "от модели”________________________________________ 45
4.1. Термометрии низкотемпературной плазмы CVD-разряда по
колебательно-вращательным спектрам собственного свечения СО низкого разрешения в отсутствие наложения спектральных полос и линий других
веществ____________________________________________________________ __ _ 45
4.1.1. Физическая постановка задачи ____________________________ 45
2
4.1.2. Методическая постановка задачи_________________________________47
4.1.3. Основные результаты 49
4.1.3.1. Постановка задачи численного моделирования________________ 50
4.1.3.2. Подготовка данных _________________________________________^0
4.1.3.3 Сравнение результатов работы различных нейросегевых алгоритмов и архитектур на модельных данных без шума и с шумом_________51
4.1.3.4 Использование компрессии данных с помощью автоассоциативной памяти для предобработки данных______________________55
4.1.3.5. Сравнение результатов с термопарными измерениями___________57
4.1.4. Защищаемые положения раздела 4.1 _____________________________$9
4.2. Определение постоянных времени затухания флуоресценции органических соединений и относительных флуоресцентных вкладов компонент смесей методом кинетической флуориметрии 60
4.2.1. Физическая постановка задачи _________________________________60
4.2.2. Методическая постановка задачи_________________________________63
4.2.3. Основные результаты __________________________________________ 68
4.2.3.1. Постановка задачи численного моделирования_________________68
4.2.3.2. Определение "инструментального предела" погрешности алгоритма с использованием ИНС_________________________________________69
4.2.3.3. Практическая устойчивость к шумам входных данных___________72
4.2.3.4. Расширение диапазона изменения параметров__________________73
4.2.3.5. Сравнение решения одно параметрической обратной задачи методом ИНС и градиентным методом___________________________________ 75
4.2.3.6. Сравнение решения трехпараметрической обратной задачи методом ИНС и градиентным методом __________ _ 77
4 2.3 7. Исследование устойчивости решения трехпараметрической обратной задачи методом ИНС по отношению к длительности и форме возбуждающего импульса лазерного излучения_____________________________78
4.2.3 8. Применение метода к экспериментальным кинетическим кривым 80
4.2.3.9. Постановка задачи классификации для определения числа флуорофоров в исследуемом объекте______________________________________82
3
4.2.4. Защищаемые положения раздела 4.2________________________________34
4.3. Определение молекулярных параметров органических соединений методом насыщения флуоресценции_____________________________________________ *5
4.3.1. Физическая постановка задачи __85
4.3.2. Методическая постановка задачи________________________________ 37
4.3.3. Основные результаты_____________________________________________89
4.3.3.1. Постановка задачи численного моделирования__________________89
4.3 3 2 Определение молекулярных параметров органического соединения с одним флуорофором методом флуориметрии насыщения и устойчивость решения по отношению к шумам входных данных___________________90
4.3.3.3. Влияние тренировки с шумом на устойчивость решения обратной задачи флуориметрии насыщения по отношению к шумам входных данных _________94
4.3.3 4. Исследование устойчивости решения по отношению к значениям параметров модели__________________________________________________ 95
4.3.3 5. Исследование устойчивости решения но отношению к количеству определяемых параметров модели_____________________________________________98
4.3 3.6. Проверка работоспособности подхода, связанного с поэтапным определением параметров___________________________________________________ 99
4.3 3 7 О возможности использования флуориметрии насыщения в сочетании с кинетической флуоримстрией с переменным стробироваиисм для диагностики смесей органических соединений________________________________102
4 3.4. Защищаемые положения раздела 4.3_______________________________103
5. Решение обратных задач спектроскопии с помощью ПС при реализации методической постановки "от эксперимента" 105
5.1. Определение температуры морской воды но форме спектров комбинационного рассеяния (КР)_______________________________________________ 105
5.1.1. Физическая постановка задачи__________________________________105
5.1.2. Методическая постановка задачи________________________________ 109
5.1.3. Основные результаты________________________________________ _ III
5.13.1. Программа исследований задачи КР-термомет рии 111
4
5.1.3.2. Сравнение эффективности различных нейросетевых алгоритмов и архитектур и оценка точности метода в лабораторных условиях__________111
5.1.3.3. Попытка применения "квазимодельной" методической постановки__________________________________________________________• 14
5.1.4. Защищаемые положения раздела 5.1 ____________________________117
5.2. Определение вкладов компонен т в спектры флуоресценции смесей органических соединений______________________________________________________ П9
5.2.1. Физическая постановка задачи 119
5.2.2. Методическая постановка задачи _____________________________120
5.2.3. Основные результаты__________________________________________122
5.2.3 1. Постановка задачи численного моделирования_______________122
5.2.3.2 Сравнение эффективности различных нейросетевых алгоритмов
и архитектур и оценка чувствительности метода при работе на модельных данных_______________________________________________________________123
5.2.3 3. Сравнение результатов "квазимодельной" методической посгановки с результатами постановки задачи "от эксперимента'1___126
5.2.3 4. Исследование практической устойчивости решения по отношению к шумам входных данных_______________________________________________128
5.2.3.5. Исследование практической устойчивости решения по от ношению
к изменению параметров модели____________________________________________129
5 2.3 6. Апробация метода в натурных условиях___________________ 136
5 2.4. Защищаемые положения раздела 5.2____________________________ 137
6. Заключение и выводы _____________________________________________ _ 138
Благодарности __________________________________________________________ 140
Литература___________________________________ ________________________ 14 о
5
1. Введение
Спектроскопия представляет собой область физики, которая изучает свойства вещества путем анализа его спектров. Установление устойчивых связей между свойствами спектров и характеристиками вещества позволяет получать важную информацию о строении объекта, его состоянии, и о происходящих в нем процессах При этом важной частью спектроскопического исследования является решение обратных задач, т.е. задач определения харакгерисгик вещества (не являющихся непосредственно наблюдаемыми величинами) по свойствам его спектров (которые наблюдаются непосредственно и напрямую зависят как от определяемых характеристик, так и от внешних факторов)
Спектроскопические методы активно используются в самых разных областях науки и техники - от диагностики плазмы до мониторинга природных экосистем [1,2,3,4], причём весьма существенным достоинством оптической спектроскопии является возможность диагностики in situ, т.е. непосредственно в "среде обитания" объекта, бесконтактно, дистанционно, без какой-либо специальной подготовки объекта. В последнее десятилетие интерес к спектроскопии не только не угасал, но, напротив, возрастал вместе с развитием новых спектроскопических методов, с одной стороны, и усложнением объектов, которые исследуются с помощью спектроскопии, с другой. Такое усложнение сделало актуальным не только разработку и применение новых собственно спекгроскогшческих методик, но и применение современных методов анализа данных.
Разработка новых спектроскопических методик происходит всё чаще в русле перехода от эмпирического подхода (установление корреляционных связей между свойствами спектров и обусловливающими их свойствами и состоянием вещества) к исследованию механизмов формирования спектров в результате взаимодействия электромагнитного излучения (в часгности, оптического диапазона) с веществом. Подобное исследование, равно как и решение основной диагностической задачи спектроскопии, требует решения прямых и обратных задач, параметрами которых были бы характеристики вещества, часто на атомно-молекулярном уровне.
Применение в спектроскопии лазеров (появление лазерной спектроскопии) существенно расширило её возможности [3, S], но и усложнило решение обратных задач. Основной причиной этого явилось увеличение числа параметров задачи, ставшее
6
возможным благодаря увеличению первичной информативности лазерных спектрометров, как из-за возникновения новых возможностей традиционных методов при больших интенсивностях возбуждающего излучения, так и с введением принципиально новых "чисто лазерных" методов. Последние используют монохроматичность лазерного излучения, высокую концентрацию энергии излучения в коротких и сверхкоротких (от наносекунд до фемтосекунд) импульсах и возникновение нелинейных эффектов Наличие нелинейности, в свою очередь, само но себе усложняет решение обратных задач из-за более сложной зависимости характеристик наблюдаемого спектра от исследуемых параметров среды.
В связи со всем сказанным, применение современных методов анализа данных в спектроскопии становится всё более актуальным. Такие методы должны помочь в первую очередь в ситуациях, когда традиционные методы решения обратных задач испытывают трудности или терпят неудачу. Несмотря на постоянные усилия (как физиков-спектросконистов, так и математиков) по модернизации традиционных методов, порой приносящие свои плоды, очевидна потребность в новых подходах, адекватных по своим возможностям сложности решаемых задач. При этом необходимо как исследование свойств новых подходов к решению обратных задач, так и разработка методик их применения и сравнение результатов с результатами традиционных подходов, для определения оптимальных областей применения каждого из них.
Одним из таких новых подходов является применение искусственных нейронных сетей (ИНС), которые, благодаря своим уникальным свойствам, подробно описываемым ниже (в разделе 2), зарекомендовали себя как весьма эффективный инструмент для решения задач распознавания образов самой разнообразной природы [6]. Постановка диагностической задачи спектроскопии как задачи распознавания спектральных образов и зависимостей характеристик спектра от параметров возбуждающего излучения и факторов среды, в комбинации с уже развитой техникой решения прямых задач (техникой расчёта спектральных характеристик на основе моделей, описывающих фотофизические процессы в веществе при воздействии на него оптического излучения, вт.ч. и лазерного), позволяет применить этот инструмент для решения обратных задач спектроскопии.
Однако на момент начала разработки автором темы данной диссертации (1997 г.) количество публикаций о применении ИНС в спектроскопии было невелико (отметим [7,8,9], а также работу [10], выполненную в лаборатории НИИЯФ МГУ, в которой
7
работает автор диссертации) С тех пор ситуация несколько изменилась и лучшую сторону - появились, например, публикации [II, 12, 13], а также ряд работ, выполненных в группе лазерной спектроскопии водных сред кафедры квантовой электроники Физического факультета МГУ, в сотрудничестве с которой выполнены некоторые разделы данной диссертации [14, 15, 16].
Целыо диссертационной работы было исследование новых возможностей, открывающихся в спектроскопии в связи с применением ИИС, что должно способствовать более широкому использованию ИНС для решения обратных задач спектроскопии. Для достижения поставленной цели в диссертационной работе должны были быть решены следующие основные ища411
1) Исследовать свойства и установить принципиальные отличия ИИС как метода решения обратных задач;
2) Сформулировать возможные методические постановки при использовании ИИС лля решения обратных задач; путем численного моделирования и экспериментальной апробации установить свойства и исследовать области применимости этих методических постановок в оптической спектроскопии;
3) Исследовать на разнообразных примерах влияние тренировки ИНС с шумом на устойчивость решения образных задач в присутствии шумов входных данных.
Диссертация состоит из шести разделов, включая, данное введение; описание используемых нейросетевых и смежных алгоритмов (раздел 2); формулировку, исследование свойств и описание методических постановок обратной задачи при использовании методов, управляемых данными, а также формулировку свойств, основных отличий от других методов и областей применения ИНС для решения обратных задач (раздел 3); иллюстрацию сформулированных положений на примере пяти разнообразных обратных задач оптической спектроскопии (разделы 4 и 5); заключения и выводов (раздел 6). Следует подчеркнуть, что, принимая во внимание прежде всего методический характер данной работы, конкретные задачи (из областей оптической спектроскопии водных сред и плазмы), используемые в разделах 4 и 5 в качестве "полигона" для тестирования сформулированных в диссертации положений, подбирались из соображений разнообразия методических подходов, необходимых для решения этих задач. Каждая из них позволит нам сформулировать и наглядно проиллюстрировать те или иные аспекты применения ИИС дня решения обратных задач спектроскопии. Вместе
8
с тем, конкретные результаты исследования каждой из этих задач представляют сам осто ятел ьны й 11 нтерес.
Коротко изложим основное содержание последующих разделов. В разделе 2, носящем обзорный характер, приводятся сведения из области ИНС, необходимые для понимания дальнейшего материала. В частности, дается краткое описание используемых в диссертаций нейросетевых алгоритмов и их свойств, излагаются основы предобработки и компрессии данных с помощью автоассоциативной памяти. В подразделе 2 7 рассматриваются общая постановка обратной задачи, понятия единственности и устойчивости решения, а также формулировка обратной задачи как задачи оценки для решения ее с помощью ИНС, обучаемой на примерах. Приводится краткий обзор литературы, посвященной решению обратных задач с помощью ИНС, в частности, обратных задач спектроскопии
Раздел 3 содержит основные теоретические результаты диссертации В подразделе
3.1 формулируются методические постановки задачи при использовании методов, управляемых данными - "от эксперимента", "от модели" и "квазимодельная", сравниваются их свойства и области применения В подразделе 3.2 у точняются свойства и формулируются принципиальные отличия ИНС как метода исследования обратных задач от традиционных методов решения задач оптимизации, прежде всего от градиентною ■метода
Раздел 4 иллюстрирует положения, сформулированные в разделе 3, на примере решения трех обратных задач, для которых может быть реализована методическая постановка "от модели". В подразделе 4.1 рассматривается задача термометрии низкотемпературной плазмы СУЭ-разряда по колебательно-вращательным спектрам собственного свечения СО низкого разрешения в отсутствие наложения спектральных полос и линий других веществ Подраздел 4.2 посвящен определению постоянных времени затухания флуоресценции и относительных флуоресцентных вкладов компонент смесей органических соединений методом кинетической флуориметрии. В подразделе 4 3 ИНС применяются для определения молекулярных параметров органических соединений методом насыщения флуоресценции.
Раздел 5 посвящен решению обратных задач, для которых основной является методическая постановка "от эксперимента", и где может быть также использована "квазимодельная" постановка. В подразделе 5.1 рассматривается задача определения
9
температуры морской воды по форме спектров комбинационного рассеяния (КР). В полразделе 5.2 ИНС применяются для выделения вкладов компонент в спектры флуоресценции смесей органических соединений. Как уже было сказано выше, результаты разделов 4 и 5 могут представлять интерес не только как иллюстрация положений, сформулированных в разделе 3, но и самостоятельно как результаты решения пяти актуальных обратных задач оптической спектроскопии Раздел 6 содержит заключение и выводы.
Основные результаты, выносимые на защиту
1. Формулировка двух основных методических постановок задачи при использовании 1411C для решения обратных задач - "от модели " и "от эксперимента", а также промежуточной "квазимодельной" постановки Результаты исследования свойств и областей применимости этих постановок.
2. Результаты исследования свойств и принципиальных отличий ИНС как метода решения образ ных задач от других методов.
3. Подтверждение положительного влияния тренировки ИНС с шумом на устойчивость решения обратных задач в присутствии шумов входных данных (на примере обратных задач оптической спектроскопии).
4. Результаты решения пяти образных задач из различных областей оптической спектроскопии, показавшие преимущества алгоритмов, использующих ИНС.
Данные защищаемые результаты диссертации сформулированы на основе частных защищаемых положений, которые формулируются в конце каждого подраздела с ориг инальными результатами (разделы 3, 4 и 5).
Результаты, полученные в настоящей диссертации, доложены на следующих девяти Всероссийских и международных конференциях:
• 1-я Всероссийская конференция "Физические проблемы экологии (Физическая экология)", Москва, июнь 1997,
• "Adaptive Computing in Design and Manufacture (ACDM-98)", Totnes, UK, April 1998;
• 3-я Всероссийская конференция "Нейроинформатика-2001", Москва, январь 2001 г.;
• I41' international Florida Artificial Research Society Conference (FLAIRS-2001)", Key West, Florida, May 2001;
• 3-я Всероссийская конференция "Физические проблемы экологии (Экологическая физика)", Москва, май 2001 (приглашённый доклад);
10
• XVIIth International Conference on Coherent and Nonlinear Optics (1CONO200I), Minsk, Belarus, June 2001;
• "Current Problems in Optics of Natural Waters (ONW-200I)“, St Petersburg, Russia, September 2001 (invited paper);
• International Conference on Lasers, Applications, and Technologies (LAT-2002), Moscow, Russia, June 2002;
• VIII International Workshop on Advanced Computing and Analysis Techniques in Physics Research (ACAT-2002), Moscow, Russia, June 2002.
Результаты, полученные с настоящей диссертации, опубликованы с 14 статьях, в том числе в 5 статьях в реферируемых журналах [17,18,19,20,21], в 5 статьях в сборниках статей [22, 23, 24, 25, 26] и в 4 ста тьях в трудах конференции [27. 28, 29, 30].
11
2. Нейронные сети и смежные алгоритмы анализа данных и их применение для решения обратных задач
Данная глава носит обзорный характер и излагает коротко общие сведения об архитектурах и алгоритмах обучения основных видов нейронных сетей и смежных аналитических алгоритмов, используемых в данной диссертации, а также некоторые другие общие вопросы, связанные с нейросетевой обработкой данных.
Все описываемые методы объединяет одно - они принадлежат к классу т.н методов, управляемых данными (data-driven methods), те. способны "обучаться на примерах", и поведение их в большей степени зависит от конкретного содержания данных и в гораздо меньшей степени опирается па априорные предположения о статистических или каких-либо иных свойствах этих данных.
Автор не ставит целью подробное, последовательное и строгое с математической точки зрения рассмотрение идей, заложенных в описываемые архитектуры, а также описание истории развития этих идей. Информацию об этом можно найти в сборнике [31], вышедшем в 2001 году, в котором собраны переводы наиболее значимых работ, лежащих в основе современной нейросетевой теории.
К сожалению, не слишком велико количество русскоязычных монографий и учебников, посвященных нейронным сетям, хотя в последние годы ситуация здесь стала меняться к лучшему (отметим прежде всего очень хороший учебник А.А Ежова и
С.А.Шумского [32], уже ставший библиографической редкостью, а также учебные пособия [33, 34]).
2.1. Сети с обратным распространением ошибки и их основные архитектуры
Наиболее распространенной нейросетевой архитектурой являются т.н. многослойные персептроны (перцептроны), обучаемые но методу обратного распространения ошибки. Не будет преувеличением утверждение, что по сей день около 90% всех работ по применению ИНС используют этот нейросетевой алгоритм как наиболее простой и эффективный для решения огромного количества разнообразных задач. Литература, в которой описываются и исследуются персептроны, весьма обширна
12
Упомянем здесь лишь несколько источников разною уровня - пионерские работы [35, 36, 37], монографии [38, 39, 40, 41, 42, 43], популярные статьи и обзоры [44, 45, 46].
Рис 1 Формальный нейрон
Псрсептроны состоят из множества одинаковых вычислительных единиц -нейронов. Формальный нейрон (Рис. 1) представляет собой вычислительный элемент с несколькими входами и одним выходом, осуществляющий взвешенное суммирование входов с последующим нелинейным преобразованием:
-У = /-'(ХИЛ).
и>
где Г - нелинейная передаточная функция, и-,. - веса связей. Нулевая связь всегда имеет единичную амплитуду и называется смещением В качестве передаточной функции чаще всего используется сигмоидальная (логистическая) функция
/■(*)= 1 •
1 + е
Нейроны объединяются в слоистую структуру, которую и принято называть перселтроном (Рис. 2). Нейроны каждого слоя в традиционной архитектуре персептрона соединены с выходом каждого нейрона непосредственно предшествующего слоя (полносвязная сеть). Нейроны входного слоя не являются нейронами в полном смысле (как нейрон на Рис. 1), т.к. не имеют нескольких входов и не имеют передаточной функции. Единственное назначение этих нейронов - мультиплексирование входного
13
- Київ+380960830922