Оглавление
Оглавление 1
Введение 5
Многомерные данные и формальные модели 12
1. Модели, используемые при обработке экспериментальных результатов 15
1.1. Экспериментальные данные и информация 15
1.2. Модели и методы 20
1.3. Подготовка данных и обработка сигналов 24
1.4. Результат главы 1 28
2. Методы качественного анализа: исследование, классификация и дискриминации 29
2.1. Метод главных компонент 29
2.2. Классификация и дискриминация 36
2.3. Трехмодальные методы 38
2.4. Результаты главы 2 40
3. Методы количественного анализа: калибровка 42
3.1. Линейная калибровка 42
3.2. Многомодальная регрессия 52
3.3. Нелинейная калибровка 54
3.4. Результаты главы 3. 55
Метод простого интервального оценивания 56
4. Объяснение ПИО метода 58
4.1. Почему погрешности ограничены 58
4.2. Модельный пример 60
4.3. Сходимость интервальных оценок 65
4.4. Результат главы 4 70
5. Описание метода ПИО 72
5.1. Область допустимых значений 72
5.2. Свойства ОДЗ 73
&_
1
Оглавление
5.3. Предсказание отклика 75
5.4. Оценка (1 76
5.5. Результат главы 5. 84
6. Классификация статуса объектов 85
6.1. Характеристики статуса объектов 85
6.2. Диаграмма статуса объектов (ДСО) 89
6.3. Классификация объектов. Одномерный модельный пример 94
6.4. Классификация новых объектов 96
6.5. Результаты главы 6 98
7. Программная реализация ПИО метода 100
7.1. Задача линейного программирования. Основные понятия. 100
7.2. ПИО метод как задача линейного программирования 106
7.3. Основные свойства, возможности, требования и ограничения программы SIC 108
7.4. Входная информация для программы SIC 109
7.5. Результаты работы про1раммы SIC 112
7.6. Автоматизация работы е программой SIC 114
7.7. Функции рабочего листа программы SIC 119
7.8. Результаты главы 7 124
Теоретические и практические аспекты применения метода простого
ИНТЕРВАЛЬНОГО ОЦЕНИВАНИЯ 126
8. Применение проекционных методов совместно с методом ПИО на примере анализа многоканальных акустических измерений. Наглядное представление многофакторных данных 127
8.1. Эксперимент. Измерение следовых концентраций нефти в воде с помощью
акустических измерений 128
8.2. Исследование калибровочного набора 130
8.3. Исследование проверочного набора 133
8.4. Исследование выбросов 136
8.5. Результаты главы 8 139
2
Оглавление
9. Сравнение содержательного и формального подхода к интерпретации
кинетических данных на примере анализа данных ДС'К эксперимента и длительного термостарения 141
9.1. Оценка активности антиоксидантов 142
9.2. Эксперимент 143
9.3. Формальное моделирование 145
9.4. Содержательное моделирование 148
9.5. Сравнение методов 154
9.6. Результаты главы 9 161
10. Применение метода ПИО к задачам классификации на примере распознавания фальшивых лекарств с помощью ИК-спектроскопни в ближней области 163
10.1. Распознавание фальсифицированных лекарств с помощью инфракрасной спектроскопии в ближней области 163
10.2. Комбинированный метод: ПЛС дискриминация и метод ПИО 165
10.3. Эксперимент 1. Исследование таблеток. БИК спектры диффузного рассеяния 166
10.4. Математическая обрабо тка результатов эксперимен та 168
10.5. Эксперимент 2. Исследование ампул - БИК спектры пропускания 175
10.6. Математическая обработка результатов эксперимента. 176
10.7. Результаты главы 10 180
11. Методы анализа процессов 181
11.1. Описание многостадийного процесса 184
11.2. Контроль процесса. Теория 185
11.3. Контроль процесса. 11ример применения 187
11.4. Оптимизация процесса. Теория • 196
11.5. Оптимизация процесса. Пример применения 200
11.6. Результаты главы 11 210
12. Формирование представительной выборки объектов применительно к различным наборам многоканальных экспериментов 212
12.1. Теория 213
12.2. Эксперимент 1. Определение влажности зерна с помощью инфракрасной спектроскопии в ближней области. . 218
12.3. Анализ данных на основе калибровочного и проверочного наборов - Модель_ С 220
3
Оглавление
12.4. Граничная выборка, МодсльВ 224
12.5. Сравнение репрезентативности различных выборок 228
12.6. Различные калибровочные наборы 231
12.7. Эксперимент 2. Определение следовых концентраций нефти в воде 232
12.8. Эксперимент 3. Аналитический контроль процесса 233
12.9. Результаты главы 12 236
Заключение 238
Приложение 242
13. Алгоритмы 242
13.1. Метод главных компонент (МРАЬв алгоритм) 242
13.2. Регрессия на главные компоненты - РГК 243
13.3. Проекция на латентные структуры (ПЛС) ># 244
13.4. Симплекс-метод. 250
13.5. Вычисление положения эллипсоида. 251
Литература 252
4
Введение
Работа посвящена разработке нового подхода, объединяющего современные проекционные методы и метод простого интервального оценивания, применяемого при решении важных теоретических и практических задач интерпретации результатов многоканальных экспериментов. Показано, что подобный подход позволяет обрабатывать сложные наборы экспериментальных данных, пронизанных внутренними связями.
Описание экспериментальных данных, построение модели и предсказание новых значений - это одна из старейших, но вечно актуальных задач, которая активно применяется при исследовании различных физических и химических явлений. Традиционно, математические модели строились так, чтобы в математической форме выразить те или иные законы химии и физики. Однако, с совершенствованием и усложнением эксперимента, появилась необходимость анализа очень больших массивов данных. Б то же время всегда существовала необходимость моделирования, хотя бы в ограниченной области, таких процессов и зависимостей которые не поддаются содержательному математическому описанию из-за сложности происходящих процессов или их нсизученности. Это привело к потребности применения формальных методов моделирования и породило новую область, называемую хемометрикой. Она появилась оссиыо 1974 года, в городе Сиэтле, США [1]. У се истоков стояли два человека: американец Брюс Ковальски (В. Kowalski) и швед Сванте Волд (S. Wold) - внук Сванте Аррениуса (S. Arrhenius). Как это часто бывает с подобными дисциплинами, хемометрика до сих пор не имеет общепризнанного определения. 11аиболее популярное определение принадлежит Д. Массарту (D. Massart), [2] который считал, что хемометрика - это дисциплина, применяющая математические, статистические и другие методы, основанные на формальной логике, для построения или отбора оптимальных методов измерения и планов эксперимента, а также для извлечения наиболее важной информации при анализе экспериментальных данных. С таким определением согласятся, наверное, многие практики. Однако область науки должна определятся не через методы и инструменты, которые она использует, а через цели и задачи, которые она преследует. Разумеется, задача извлечения информации из накопленных данных по-прежнему остается крайне важной, как с практической, так и с теоретической точки зрения, однако сейчас становится очевидным, что не менее важной
5
Введение
является и задача конструирования таких экспериментов, которые могут предоставить данные, в которых содержится нужная информация. Эти два разнозначных аспекта -извлечение информации из данных и получение данных с нужной информацией - нашли свое отражение в современном определении хсмомстрики, данном С. Волдом [3]. Хемометрика решает следующие задачи: как получить физически/химически важную информацию из экспериментальных данных, как организовать и представить эту информацию, и как получить данные, содержащую такую информацию.
То, что формальные методы многомерного анализа больших массивов экспериментальных данных, или хемомстрика, родилась и начала бурно развиваться именно в начале 70-х годов, явно связано с появлением к то же время быстродействующей вычислительной техники, которая стала повсеместно доступна ученым и инженерам. Это позволило практически воплотить многие сложные алгоритмы обработки данных, в особенности методы анализа мпогооткликовых и многофакторных экспериментов. В свою очередь, это побудило производителе!! приборов разрабатывать более сложное оборудование, способное производить многократно большее количество измерений. Однако вскоре оказалось, что большее количество данных еще не означает большее количество информации, необходимой исследователю. Эю подвигло их активно применять математические методы для извлечения такой информации и для подтверждения того, что сделанные при этом выводы достоверны. Б результате такого взаимодействия был достигнут первый несомненный успех. Оказалось, что очень часто традиционные аналитические методы, требующие больших затрат труда, времени, уникального оборудования, дорогих реактивов, могут быть заменены на косвенные методы, которые гораздо быстрее и дешевле. Наиболее ярко эта тенденция проявилась при использовании инфракрасной (ИК) спектроскопии, особенно в ближней области (БИК), прежде считавшейся малополезной из-за высокого и трудно устранимого шума, обусловленного интенсивным поглощением воды и эффектом рассеяния в спектрах отражения [4]. Перзые работы но хемометрике были посвящены методам анализа спектроскопических данных [5-7], построению для них калибровочных моделей с помощью метода главных компонент [8] и метода проекций на латентные структуры [9].
Говоря об истории развития методов многомерного анализа данных, нельзя не отметить ученых, которые еще задолго до 70-х заложили основе»! хемометрического подхода. Начать, очевидно, нужно с К. Гаусса (К. Gauss), который в 1795 году ввел метод наименьших квадратов. Первым практикующим хемометриком следует, по-видимому,
6
Введение
считать У. Госсета (W. Gosset), известного иод псевдонимом Стыодент, который в конце 19 века применял методы анализа данных [11] на пивоварне Гиннеса, где он работал аналитиком. В начале 20 века появилась работа К. Пирсона (К. Pearson) [10], в которой был предложен метод главных компонент, несколько позднее работы Р. Фишера (R. Fisher) - автора многочисленных статистических методов, таких как метод максимума правдоподобия и факторного анализа [12], а также пионерских работ [13] по планированию эксперимента. Среди советских ученых следует отметить, прежде всего, В. Налимова, внесшего значительный вклад в теорию планирования эксперимента [14].
Хемометрика зародилась, и длительное время развивалась внутри аналитической химии. Однако со временем обнаружилась тенденция, которую некоторые исследователи расценили, как выход хемометрики из-под крыла аналитической химии и превращение ее в самостоятельную дисциплину. Два обстоятельства дали повод к такому выводу. Во-первых, это усложнение математического аппарата, используемого при анализе многофакторных экспериментов. Десять лет назад экспериментаторы смогли усвоить и принять многомерный подход к анализу данных, т.е. такие методы как проекция на латентные структуры (ПЛС) [15] или разложение по сингулярным значениям (SVD) [16]. Однако потом, в период повального увлечения новыми методами анализа данных: мультимодальным подходом (n-way) [17J, вэйвлет-анализом (wavelet) [18], методом опорных векторов (SVM) [19] и т.п., наметился некоторый разрыв между экспериментаторами и теоретиками. Второе обстоятельство, приведшее к отдалению хемометрики от аналитической химии, связано с появлением многочисленных приложений, в которых хсмомстрический подход с успехом применялся в областях, далеких от аналитической химии. Достаточно вспомнить о гиперспектралыюм анализе и анализе изображений (MIA) [20], многомерном статистическом контроле процессов (MSPC) [21], а также о многочисленных биофизических и биологических приложениях [22].
Методы многомерного анализа данных тесно связаны с математикой и, в особенности, с математической статистикой, откуда они черпает свои идеи. Большинство экспериментаторов понимают необходимость применения статистики в физическом и химическом анализе и используют ее для вычисления средних, отклонений, пределов обнаружения, проверки гипотез и т.п. Часто именно эти простые приемы и называют хемометричсским подходом, и лишь немногие исследователи решаются пойти дальше и действительно использовать хемометрику для анализа своих данных. Большинство
7
Введение
экспериментаторов не любят математику, и сложные уравнения пугают их. Однако для эффективного практического применения хемометрики совсем не обязательно знать статистическую теорию метода главных компонент, достаточно понимать основы, базовые идеи этого подхода. А вот что действительно необходимо знать - это методы подготовки данных, принципы отбора переменных, и, самое главное, надо уметь правильно интерпретировать проекции данных (па!рузки и счета) в пространстве главных компонент. Хотя этот навык, как показывает многолетняя практика обучения хемометрике «без уравнений», можно приобрести и без глубоких математических познаний.
Взаимоотношения хемометрики и математики заслуживают отдельного рассмотрения. Многие методы и алгоритмы, популярные в хемомстрике, не вызывают восторга у математиков [24], которые справедливо считают их плохо обоснованными с формальной точки зрения. Хсмометрики всегда рассматривали свою деятельность как компромисс между возможностью и необходимостью, полагая, что главное - это практический результат, а не теоретическое обоснование невозможности его достижения. Сталкиваясь с практическими задачами интерпрегации очень больших и сложно организованных массивов экспериментальных данных [25], хемометрики изобретают все новые и новые методы их анализа. Делают они это так быстро, что математики, по словам американского статистика Д. Фридмана (J. Friedman), не успевают не только раскритиковать их за эго, но и просто понять, что же происходит в этой области. Такой подход контрастирует с ситуацией, сложившейся в биометрике [26], которую можно считать, в каком-то смысле, старшей сестрой хсмометрики. Со времен Фишера биометрики традиционно применяют только хорошо апробированные, классические методы математической статистики, такие как факторный анализ, или линейный дискриминантный анализ. С другой стороны, специалисты, работающие в другой близкой дисциплине - психометрнке [27], традиционно активно разрабатывали новые подходы к анализу данных. Так, самый популярный в хемомстрике метод ПЛС, был изобретен Г. Волдом (Н. Wold) [28] именно для применения в этой области. Забавно, что в начале 70-х годов господствовало мнение, что проекционные методы: <смалоприемлемы в физических, технических и биологических науках. Они могут быть полезны иногда в общественных науках как методы отыскания эффективных комбинации переменных'» [29, т.2, стр.48].
8
Введение
Благодаря такому «агрессивному» подходу к анализу данных, хемометрика нашла многочисленные применения в самых разных - смежных и далеких от химии областях. Она применяется в физической химии для исследования кинетики [30], в органической химии для предсказания активности соединений по их структуре ((^БАЯ) [31], в химии полимеров [32], в теоретической и квантовой химии [33]. Хемометрика используется в самых разнообразных областях - от пивоварения [34], до астрономии [35]. Она применяется для решения судебных споров о защите окружающей среды [36] и для контроля качества производства полупроводников [37]. Подробный анализ взаимодействий хемометрики с различными областями человеческой деятельности приведен в книге английского аналитика Р. Брсретона (Я. ВгегеЮп) [38].
Некоторые направления хемометрики развивались и в СССР, и позднее в России. 'Гак, например, еще в 50-е годы в Харьковском университете под руководством Н. Комаря проводились исследования по математическому описанию равновесий [39]. Позднее появились работы Л. Грибова [40] и М. Эляшберга по спектральным методам [41], Б. Марьянова по титраметрии [42], Б. Дсрендяева и В. Вершинина но методам компьютерной идентификации органических соединений [43], И. Зенкевича по хроматографии [44]. Исследования в близкой к хемометрике области (^БАЯ ведутся под руководством Н. Зефирова [45]. Метрологические аспекты и контроль качества химического анализа исследуются в работах В. Дворкина [46] и Ю. Карпова [47]. В С.-Петербургском университете группа ученых под руководством Ю. Власова работает над созданием сенсорных систем, известных иод названием «электронный язык» [48], а в Воронеже разрабатываются аналогичные методы, известные как «электронный нос» [49]. Во всех этих областях интенсивно используются хсмомегрнчсские методы. В. Разумов и его коллеги из Черноголовки применяют многомерные методы анализа данных при решении задач химической кинетики [50, 51]. За последние годы в России появились новые группы ученых, разрабатывающих и применяющих хемометрические подходы: в Москве [52-55], в Барнауле [56, 57], в Томске [58], в Иркутске [59].
Информационное и программное обеспечение. Единственная широко-известная в России книга по хемометрикс была переведена и опубликована 20 лет назад [60]. Она ярко отражала положение дел в этой области, сложившееся в середине 80-х годов. На сегодняшний день наиболее полным изложением хсмометрических методов является двухтомник, написанный группой авторов под руководством Д. Массарта [61, 62]. Он включает подробное описание основных методов и приемов, большое количество
9
Введение
практических приложений, а так же обширный список литературы. Помимо этого, существует множество книг и учебников, ориентированных на очень разный круг читателей. Так, для студентов и специалистов в области аналитической химии, начинающих осваивать хемометрику, проще начать с книги [38]; исследователям, занимающимся, в основном, спектральным анализом, будут понятнее книги [63,64]. Для практического применения очень полезна книга [65]. Также нельзя не упомянуть знаменитую кншу Е. Малиновского (Е. Malinowski) [66], которую до сих пор многие экспериментаторы считают лучшим учебником в этой области. Теоретические основы хемометрики были изложены в работах [67,68]. Недавно на русский язык был переведен учебник [69], содержащий краткое описание хемометрики в одной из своих глав. Небольшое, но очень полезное введение в хемометрику написал Б. Марьянов [70]. Маленьким тиражом (для участников четырех конференций по хемометрики в России) был издан сокращенный перевод самого популярного в мире учебника по многомерному анализу данных, написанного К. Эсбенсеном (К. Esbensen) [71].
Проблемам хемометрики
посвящены два специализированных журнала: Journal of Chemometrics и Chemometrics and Intelligent Laboratory Systems. Статьи, где хемометрические методы
используются в прикладных задачах, регулярно печатаются более чем в 50-ти научных журналах, таких как Vibrational Spectroscopy, Analytica Chimica Acta, Computers and Chemical Engineering, Analyst, Talanta, и т.д. Число статей, использующих хемометрические методы в качестве основного
инструмента для анализа и обработки экспериментальных данных, возрастает с каждым годом (см. Рис 1.) [72] В качестве программного обеспечения применяются
специализированные пакеты программ [73-75], позволяющие наглядно и быстро обрабатывать данные в интерактивном режиме. Однако широко применяются и статистические пакеты общего назначения [76, 77]. Часто исследователи пишут
год
Рис I. Число статей по хемометрике, опубликованных в журналах издательства Е.1$е\тег
10
Введение
процедуры сами, например, в кодах MATLAB [78], и они публикуются для свободного применения, например [68].
Широкое распространение и применение методов многомерною анализа данных в первую очередь обусловлено тем, что главной своей целью этот подход видит в решении конкретных, в основном физических и химических задач, а потом находит уже существующие или разрабатывает новые математические и статистические приемы и алгоритмы.
Эта работа выполнялась в тесном сотрудничестве со многими коллегами. Большой вклад в разработку алгоритмов и написание программ, так же в обсуждение результатов работы внес АЛ. Померанцев (ИХФ РАН), оригинальная физико-химическая моделей для ДСК эксперимента была предложена Е.В. Быстрицкой (ИХФ РАН). Большое влияние на проведение работ в области хемометрики оказал К.FI. Esbcnscn (Aalborg University Esbjcrg). Экспериментальные данные, используемые в работе, были получены A.A. Крючковым (НИИКП), L. P. Houmoller и К.Н. Esbensen (Aalborg University Esbjerg).
11
Многомерные данные и формальные модели
В этом разделе в систематическом виде вводятся основные понятия и объекты, с которыми работает исследователь при анализе результатов физического эксперимента с помощью хемометрических методов. Материал этого раздела представлен в работах [72, 79].
Обозначения и термины. В работе используются следующие обозначения. Скалярные переменные выделяются курсивом, например s. Векторы (столбцы) обозначаются прямыми жирными строчными буквами, например х, а матрицы -заглавными, например W. Мультимодальные матрицы еще и выделяются курсивом, например G. Элементы массивов обозначают той же, но строчной буквой, например \v,j -это элемент матрицы W. Индекс / обозначает строку матрицы; он изменяется от 1 до /. Индекс j соответствует столбцу, и он меняется от 1 до J. Аналогичные обозначения применяются и для других индексов, например к= 1,..., К. Операция транспонирования обозначается верхним индексом t, например X5. В описании алгоритмов, верхний индекс, так же обозначает номер итерации, например рт, обозначает вектор р, вычисленный на т-ой итерации.
В русском языке до сих нор не сложилась общепризнанная система хемометрических терминов. Некоторые понятия переводились ранее неверно или неточно. Например, фундаментальный хемометрический метод PLS первоначально расшифровывался как Partial Leasi Squares. На русский язык это переводилось как «частичные» или «частные наименьшие квадраты», что никак не соответствовало сути метода. К счастью, в последнее время, оригинальная трактовка аббревиатуры PLS изменилась на Projection on Latent Structures, что дословно переводится как «проекция на латентные структуры». Термины soft и hard, часто используемые в хемометрике для характеристики методов моделирования, должны, по нашему мнению, переводиться словами формальный и содержательны и. Это точнее отражает суть этих понятий. При переводе понятия N-way используется термин N-модалъный. Может быть, это и не лучшее решение, но применение традиционного термина тензорного анализа «валентность» в физическом/химическом контексте, будет неудачным. Во многих случаях переводчики просто избегали давать русские названия ключевым хемометрическим понятиям, таким как scores и loadings, используя вместо них сложные
12
Многомерные данные и формальные модели
эвфемизмы. Однако в хемометрике невозможно обойтись без понятий счета и нагрузки, или их аналогов.
Хемометрика - это наука о сокращениях. В данном случае имеется в виду не понижение размерности данных, а то, что в хемометрике часто используются аббревиатуры: РСА, PLS, PCR, RMSEP и т. п. У некоторых из них есть общепринятые русские аналоги, которые и используются в дальнейшем в тексте. Например, РСЛ - это МГК (метод главных компонент), PCR - это РГК (регрессия на главные компоненты), PLS - ПЛС (проекция на латентные структуры). А гак же имеется множество сокращений, не имеющих устоявшихся русских аналогов. В тексте эти аббревиатуры используются в английской нотации. Ниже они расшифрованы.
ALS (alternating least-squares) - чередующиеся наименьшие квадраты;
ANN (artificial neural network) - искусственная нейронная сеть;
DASCO (discriminant analysis with shrunk covariance matrices) - дискриминантный анализ с сокращенной ковариационной матрицей;
EFA (evolving factor analysis) - эволюционный факторный анализ;
GA (genetic algorithm) - генетический алгоритм;
IA (immune algorithm) - иммунный алгоритм;
INLR (implicit non-linear latent variable regression) - неявная нелинейная регрессия на латентных переменных;
ITTFA (iterative target transformation factor analysis) - итерационный целевой факторный анализ;
K.NN (k-nearest neighbours) - классификация по К ближайшим соседям;
LOO (leave one out) - метод перекрестной проверки с исключением но одному объекту;
MIA (multivariate image analysis) - многомерный анализ изображений;
MSC (multiplicative signal correction или multiplicative scatter correction) -множественная коррекция сигнала или мультипликативная коррекция рассеяния;
MSPC (multivariate statistical process control) - многомерный статистический контроль процессов;
NAS (net analyte signal) - полезный аналитический сигнал;
NIPALS (non-linear iterative projections by alternating least-squares) - нелинейное итерационное проецирование при помощи чередующихся наименьших квадратов;
OSC (orthogonal signal correction) - ортогональная коррекция сигнала;
13
Многомерные данные и формальные модели
PARAFAC (parallel factor analysis) - параллельный факторный анализ;
PAT (process analytical technology) - методы анализа процессов;
PC (principal component) - главная компонента (ГК);
PLS-DA (PLS discriminant analysis) - дискриминантный анализ с помощью регрессии на латентные структуры;
PMN (penalized minimum norm projection) - проекции с помощью штрафных функций минимума нормы;
QPLS (quadratic PLS) - квадратичный PLS;
QSAR (qualitative structurc-aetivity relationship) - количественная связь структура-активность;
RMSEC (root-mean square error of calibration) - среднеквадратичный остаток калибровки;
RMSEP (root-mean square error of prediction) - среднеквадратичный остаток прогноза;
SIMCA (soft independent modeling of class analogy) - формальное независимое моделирование аналогий классов;
SIMPLISMA (Simple-to-use interactive self-modeling mixture analysis) - простой интерактивный автомодельный анализ смесей;
SIMPLS (simple partial leasi squares regression) - элементарные последовательные наименьшие квадраты;
SMCR (self-modeling curve resolution) - метод автомодельного разрешения кривых;
SPC (statistical process control) - статистический контроль процессов;
SVD (singular value decomposition) - разложение по сингулярным значениям;
SVM (support vector machine) - метод опорных векторов;
WFA (window factor analysis) - оконный факторный анализ.
14
1. Модели, используемые при обработке экспериментальных результатов
1.1. Экспериментальные данные и информация
Экспериментальные данные - это основной объект, рассматриваемый в работе. . Следуя классификации, предложенной в работе [81], рассмотрим типичное устройство данных физических экспериментов (см.Рис. 1.1).
10
1
СЮ
л:
} 1 X
1 1
Ю /
20
30
Рис. 1.1 Графическое представление данных разной модальности
Простейший случай - это одномерные данные (ОП), т.е. просто одно число, например, значение оптической плотности, которое может быть получено на монохроматическом фотометре. Более сложный случай - это многомерные, одномодальные данные, т.е. набор из нескольких измерений, относящихся к одному объекту. Примерами таких данных являются спектр или хроматограмма. С математической точки зрения их можно интерпретировать как Ш-вектор (столбец, или строку), каждый элемент которого соответствует некоторой переменной (длине волны, времени удерживания). Число переменных определяет размерность данных. Следующий, наиболее распространенный тип физических данных, это дбухмодалъные данные, которые представляются 20-матрицей - таблицей из чисел, имеющей 1 строк и J столбцов. Типичный пример это набор спектров, снятых для / объектов на Э длинах волн. Каждая строка в такой матрице представляет объект (в данном случае, образец), а каждый столбец - переменную (дшну волны). Отнесение данных к объектам (образцам) или переменным (каналам) имеет большое значение для их интерпретации. Хотя не всегда такое разделение очевидно. Например, при анализе данных, полученных методом ВЭЖХ-ДДМ /для 30 точек по времени на 28 длинах волн, можно составить матрицу из 28
15
Модели, используемые при обработке экспериментальных результатов
строк и 30 столбцов, а можно, наоборот, считать длины волн переменными, а времена удержания - объектами. В большинстве случаев, в эволюционных (то есть, развивающихся во времени) физических экспериментах, объекты соответствуют временам, то есть образец, меняющийся во времени, рассматривается как серия объектов [38].
С интенсивным развитием гибридных методов (69] большое внимание уделяется трех (и более) модальным данным [82]. Их можно представить в виде параллелепипеда (3D матрицы), в котором каждое ребро соот ветствует своему типу переменной. В разделе 3.2 подробно рассматривается типичный пример, в котором сочетание газовой хроматографии и масс-сиектрометрии (ГХ-МС) применяется для количественного определения клеибутсрола в биологических матрицах. В этом случае имеется одна мода, соответствующая стандартным образцам, и две моды, представляющие переменные: время удерживания и отношение массы к заряду. Пример четырех и даже восьми модальных данных можно найти в [82].
Результаты физических экспериментов, или данные для анализа, могут объединяться в блоки. Простейший случай - это один блок X. Такой случай чаще встречается в качественном анализе, например, в задаче разделения спектров и концентраций. Количественный анализ, основанный на регрессионных зависимостях, использует данные, состоящие из двух и более блоков. Блок предикторов (например, 2D-матрица спектров X) и блок откликов (например, 1D- вектор концентраций у) составляют набор стандартных данных, по которым строится калибровочная модель у=ХЬ. Встречаются данные и более сложной структуры, объединяющей три и более блоков данных [84]. Для их анализа применяются специальные методы, называемые маршрутным моделированием (path modeling) [85]. Может показаться, что такая систематизация данных: размерность, модальность, блочность, носит несколько формальный характер и может представлять интерес только для математиков, но не для экспериментаторов. Дело обстоит не совсем так. За последние годы кардинально изменилась оценка того, какие данные можно считать большими. Если в начале 70-х матрица данных (например, спектров) считалась большой, когда в ней имелось 20 столбцов (переменных, например, длин волн) и 100 строк (объектов, например, образцов), то сейчас, с развитием техники физического эксперимента, большой может считаться матрица с 1 000 000 столбцов и 400 000 строками [25]. При обработке таких массивов, их приходится разделять на блоки и интерпретировать но очереди. Это
16
Модели, используемые при обработке экспериментальных результатов
разделение нельзя проводить формально, тут обязательно требуется участие опытного физика , понимающего суть дела. Модальность тоже придумали не математики. Это естественный ответ на потребность анализа данных гибридных и эволюционных экспериментов, число которых вес увеличивается по мере развития инструментальной базы. С внедрением новых методов анализа, таких как гиперспсктральныс данные [86] и микрочипы [87], сложность данных будет только нарастать.
Основная задача хемометрики состоит в извлечении из данных нужной физической/химической информации. Понятие информации является ключевым, поэтому на нем следует остановиться подробнее. Что является информацией, зависит от сути решаемой задачи. В некоторых случаях достаточно знать, что некоторое вещество присутствует в системе, но в других уже необходимо получить и количественные значения. Данные могут содержать нужную информацию, они даже могут быть избыточными, но в некоторых случаях информации в данных может не быть совсем. Во всех случаях данные содержат шум (например, погрешности), который скрывает нужную информацию. Для иллюстрации рассмотрим следующий идеализированный эксперимент. Пусть есть система, состоящая из смеси трех веществ А, В и С без посторонних примсссй. Предположим, что абсолютно точно известны спектры *л(?ъ), лв(Х.), 5с(Х) всех компонентов. Заметим, что слово «спектры» употребляется в самом общем смысле. Это могут быть любые многомерные данные, например, хроматограммы, в которых X - это время удержания. Требуется определить концентрации но спектру смеси х(Х), который также можно получить без погрешностей. Если каждый спектр содержит значения для 30 длин волн (времен) X, то для решения этой задачи можно составить 30 уравнений относительно трех неизвестных концентраций сА, с в и сс
х(Хі )=сл.їа(Х і )+с в*с(Х д+Ссъ(Х і)
*(^зо)-адА(^зо)+св-?с(^зо)+сс*с(^зо)
Совершенно ясно, что столько уравнений не нужно - можно оставить только три из них, соответствующие любым*) трем длинам волн и получить нужную информацию. Таким образом, видно, что исходные данные (30-мерный Ш-всктор) избыточны по отношению к искомой информации - используя любые три точки спектра, мы будем получать одни и те же значения концентраций. Сделаем теперь пример более
*) Строго говоря - не совсем любым. Необходимо, чтобы система имела единственное решение.
17
Модели, используемые при обработке экспериментальных результатов
реалистичным, допуская, что все спектры содержат некоторую случайную погрешность. Тогда оценки концентраций, определяемые по разным тройкам длин волн, будут отличаться. Эти оценки можно усреднить и получить концентрации с лучшей точностью. Заметим, что того же можно было бы достичь и с помощью повторных экспериментов. Однако этот путь не эффективен, поскольку требует больших затрат сил и времени. Гораздо проще уменьшать неопределенность количественного анализа за счет увеличения числа переменных (каналов, длин волн) в одном единственном эксперименте. Этот вывод является первым, важным принципом - использование многомерного подхода при конструировании физических экспериментов и анализе их результатов.
Данные всегда (или почти всегда) содержат в себе нежелательную составляющую, называемую шумом. Природа этого шума может быть различной. Это могут быть случайные погрешности, сопровождающие эксперимент: сдвиг базовых линий,
погрешности в определении сигналов, неточности в подготовке и проведении эксперимента. Но, во многих случаях, шум - это та часть данных, которая не содержит искомой информации. Так, например, если бы в рассмотренном выше примере определялась концентрация только двух веществ А и В, то вклад от вещества С был бы шумом, нежелательной примссыо. Что считать шумом, а что - информацией, всегда решается с учетом поставленных целей и методов, используемых для ее достижения. Это второй важнейший принцип.
Шум и избыточность в данных обязательно проявляют себя через корреляционные связи между переменными. Возвращаясь к идеализированному примеру, можно заметить, что в матрице «чистых» спектров, имеющей размерность 3x30, только три столбца будут линейно независимыми. Зафиксировав эту тройку, любой четвертый столбец можно представить в виде их линейной комбинации. Разумеется, то, что их ровно три, это не случайность - ведь именно столько веществ присутствует в нашей системе. Это число называется рангом матрицы, и оно играет важную роль в многомерном анализе. Рассматривая тот же пример в более реалистичном варианте, с присутствием погрешностей, можно заметить появление дополнительных корреляций в данных. Эго произойдет, например, если концентрация третьего вещества С будет существенно меньше шума. Тогда эти данные будут уже недостаточными для надежного определения всех трех концентраций, и эффективный ранг матрицы будет равен двум. Таким образом, погрешности в данных мог>т привести к появлению не систематических,
18
Модели, используемые при обработке экспериментальных результатов
а случайных связей между переменными. Очевидно, что в первом случае имеют место причинные, а во втором - корреляционные связи [88]. Понятие эффективного ранга и скрытых, латентных переменных, число которых равно этому рангу, является третьим важнейшим принципом [66]. Проиллюстрируем его применение примером, который будет некоторым усложнением уже рассмотренной ранее трехкомпонентной системы. Предположим, что имеется несколько (/) смесей веществ Л, В и С, но их чистые спектры 5а(?0> -Ув(^), *с(Х) теперь нс известны. Проведя анализ, можно получить спектры этих объектов - двухмодальные данные, т.с. матрицу X размером /хЗО. Подвергнув матрицу X обычному математическому анализу, можно определить ее ранг. Это число дает важную информацию о том, сколько компонентов присутствует в системе или, по крайне мере, сколько их можно различить.
Таким образом, в физических данных почти всегда присутствуют внутренние, скрытые связи между переменными, приводящие к множественным корреляциям -коллинеарностям. Такое свойство данных называется мультиколлинеарностью. Оно может проявляться как избыточность данных, что позволяет улучшить качество оценок. С другой стороны, при неправильном методе обработки , мультколлинеарность может негативно сказаться на качестве анализа. Так, например, применение множественной линейной регрессии в условиях мультиколлинеариости совершенно неприемлемо [71]. Для регрессионного анализа таких данных надо применять специальные методы, например ридж-регресию [89], или проекционные подходы [68].
Существенным источником шума в данных может быть отбор образцов. Теория пробоотбора, значительный вклад в которую внес П. Жи (Р. Оу) [90], приобрела большую популярность в последнее время [91]. Многочисленные приложения можно найти в специальном выпуске [92], полностью посвященном этой теме. Другая проблема, с которой может столкнуться исследователь — это пропуски 6 данных [93]. Это может случиться по разным причинам: отказы приборов, выход за пределы обнаружения, нехватка объектов для исследования, и т.п. Большинство хемометрических методов не допускают пропусков в данных, поэтому для их заполнения используют специальные приемы, среди которых самым популярным является итерационный алгоритм. Каждая его итерация состоит из двух шагов. Ыа нервом шаге проводится оценка параметров модели так, как будто данные известны полностью. Для этого пропуски заполняются некоторыми априорно допустимыми значениями, например средними но окружающим элементам. На втором шаге, с помощью полученной модели, находятся наиболее
19
Модели, используемые при обработке экспериментальных результатов
вероятные значения пропущенных данных, и совершается следующая итерация. Для заполнения пропусков используется также подход, основанный на методе максимума правдоподобия [94]. Детали таких алг оритмов в большой степени зависят от того, какая модель используется для описания данных.
1.2. Модели и методы
Рассмотрев устройство данных физического эксперимента, перейдем к методам их анализа. Далее основные методы будут описаны более подробно, а этот раздел посвящен общей методологии. Хемометричсскне методы можно разделить на две группы, соответствующие двум главным задачам: исследование данных, например,
классификация и дискриминация, и предсказание новых значений, например, калибровка. Методы первой группы оперируют, как правило, с одним блоком данных, а в калибровке необходимы, как минимум, два блока - предикторов и откликов. В зависимости от поставленных целей, методы решения мшут быть направлены на предсказание внутри диапазона условий эксперимента (интерполяция) или за его пределами {экстраполяция). Существенным является разделение методов на формальные (soft), называемые также «черными», и содержательные (hard), или «белые». При использовании формальных моделей [95], результаты физического эксперимента описываются эмпирической зависимостью (как правило, линейной), справедливой в ограниченном диапазоне условий. В этом случае не нужно знать, как устроен механизм исследуемого процесса, однако такой метод не позволяет решать задачи экстраполяции. Параметры формальных моделей лишены физического смысла и должны интерпретироваться соответствующими математическими методами. Содержательное моделирование [96] базируется на физихо-химических принципах и позволяет экстраполировать поведение системы в новых условиях. Параметры «белой» модели имеют физический смысл и их значения могут помочь при интерпретации найденной зависимости. Однако такой метод может быть применен только тогда, когда модель известна априори. Каждый из подходов имеет свои сильные и слабые стороны [32], и у каждого из них есть свои сторонники и противники. Исторически сложилось так, что в России интенсивно развивался содержательный подход, тогда как на западе отдавали преимущество формальным методам. За последнее время появилось много работ, в которых рассматриваются так называемые «серые» модели [97], объединяющие сильные
20
Модели, используемые при обработке экспериментальных результатов
стороны обоих методов. Проиллюстрируем разные подходы к моделированию примерами.
Важными объектами математического моделирования являются титриметрические процессы, отличающиеся многообразием химических реакций и регистрируемых сигналов. Уравнения кривых титрования нередко весьма сложны и не могут быть записаны в явной форме относительно регистрируемого сигнала. Это затрудняет применение содержательных моделей для решения обратной задачи, т.е. для оценивания параметров по измеренным точкам кривой. Тем не менее, такую задачу можно все же решить в рамках «белого» моделирования, используя современные вычислительные системы [98]. С другой стороны, в работе [99] замечено, что по своей форме титриметрические кривые напоминают обратные гиперболические и тригонометрические функции. Исходя из этого, предлагается использовать формальные, «черные» зависимости, составленные из функций arcsin, arccos и т.п. Компромиссный, «серый» подход предложен в работе [42], где заменой переменных содержательная модель преобразуется в кусочно-линейную. Затем для оценки параметров применяется метод чередующихся наименьших квадратов (ALS) [100], суть которого состоит в последовательном приближении модели к данным - сначала линейными регрессионными методами определяются оценки линейных параметров, при фиксированных значениях нелинейных, а затем нелинейные оцениваются в процедуре наискорейшего спуска, при найденных ранее фиксированных оценках линейных параметров. Процедура чередуется до сходимости.
Интерес к «черным» и «серым» методам моделирования обусловлен большими трудностями выбора и подтверждения правильности содержательной модели. Во многих случаях все сводится к простому перебору внутри короткого набора конкурирующих зависимостей, в результате которого обычно выбирается наипростейшая модель с минимальной невязкой. Однако это не доказывает правильность выбранного метода и может приводить к грубым ошибкам. Часто исследователи используют модели, которые О. Карпухин [101) справедливо назвал «розовыми» - это идеализированные зависимости, плохо соответствующие реальным артефактам, присутствующим в данных: дрейфам базовых линий, ненормальным погрешностям, и т.п. Формальные, многофакторные линейные модели и надлежащие методы их анализа гораздо лучше приспособлены к учету' таких «неидеальностей». Они работают и в тех случаях, когда ни о какой содержательной, физико модели не может быть и речи. Обоснованием для использования
21
Модели, используемые при обработке экспериментальных результатов
линейных моделей служит тот факт, что любую, даже очень сложную, но непрерывную зависимость можно представить как линейную функцию параметров в достаточно малой области. Принципиальным моментом здесь является то, какую область можно считать допустимой, иначе говоря, насколько широко можно применять построенную формальную модель. Ответ на этот вопрос дают методы проверки (валидации) моделей.
При надлежащем построении модели, исходный массив данных состоит из двух независимо полученных наборов, каждый из которых является достаточно представительным. Первый набор, называемый обучающим или калибровочным, используется для идентификации модели, т.с. для оценки ее параметров. Второй набор, называемый проверочным или тестовым служит только для проверки модели. Построенная модель применяется к данным из проверочного набора, и полученные результаты сравниваются с проверочными данными. Таким образом, принимается решение о правильности, точности моделирования с помощью проверочного набора (методом тест-валидации). В некоторых случаях объем данных слишком мал для такой проверки. Тогда применяют другой метод - перекрестной проверки (кросс-валидация) [102]. В этом методе проверочные значения вычисляют с помощью следующей процедуры. Некоторую фиксированную долю (например, первые 10% объектов) исключают из исходного набора данных. Затем строят модель, используя только оставшиеся 90% данных, и применяют ее к исключенному набору. На следующем цикле исключенные данные возвращаются, и удаляется уже другая порция данных (следующие 10%), и опять строится модель, которая применяется к исключенным данным. Эта процедура повторяется до тех пор, пока все данные не побывают в числе исключенных (в нашем случае - 10 циклов). Наиболее (но неоправданно) популярен вариант перекрестной проверки, в котором данные исключаются по одному (LOO). В регрессионном анализе используется также проверка методом коррекции размахом, которая описана в [71]. Следует отмстить, что та или иная проверочная процедура должна применяется не только в количественном, но и в качественном анализе при решении задач дискриминации и классификации.
Любой результат, полученный при анализе и моделировании данных физического эксперимента, несет в себе неопределенность. Количественная оценка или качественное суждение могут измениться при повторном эксперименте в результате действия разнообразных случайных и систематических погрешностей, как присутствующих в исходных данных, так и вносимых на стадии моделирования [103]. Неопределенность в
22
Модели, используемые при обработке экспериментальных результатов
количественном анализе характеризуется либо числом - стандартным отклонением [104], либо интервалом - доверительным [105] или прогнозным [52]. В качественном анализе применяется метод проверки статистических гипотез [106], в котором неопределенность характеризуется через вероятность принятия неверного решения [107]. Методы оценки неопределенности при моделировании многомерных [108] и многомодальных [109] данных вызывают большой интерес исследователей. Для описания различных аспектов надежности метода применяются специальные характеристики: специфичность,
селективность, предел обнаружения, отношение сигнал/шум [70]. Актуальным методом их определения является подход с использованием концепции [111] полезного аналитического сигнала (NAS). Многомерный вектор NAS определяется как та часть полного сигнала (спектра), которая используется для моделирования и прогноза [112]. Оставншяся часть сигнала, включающая погрешности, вклады от посторонних
компонентов, рассматривается как шум. Концепции NAS была применена к задаче
определения предела обнаружения при анализе двух- [113] и трехмодальных [114] данных. Полученные результаты нашли многочисленные практические приложения, одно из которых рассмотрено в разделе 3.2. >
Надежность метода сильно зависит от того, какие данные были использованы для построения и проверки соответствующей модели. Наличие выбросов [115] или малоинформативных данных снижает точность модели, и наоборот, присутствие с
представительных, влиятельных объектов в эксперименте [116] существенно улучшает качество модели. Оценка влиятельности данных может проводиться классическими регрессионными методами [117], а может выполняться с помощью нестатистических процедур [52]. При использовании построенной модели для определения интересующих нас показателей, мы сталкиваемся с похожими проблемами. Может оказаться, что метод не применим к некоторым объектам (выброс в прогнозе [118]) или даст очень неточный результат. Оценка неопределенности метода не в среднем [119], а для индивидуальных объектов - эго сложная задача, над решением которой работают сейчас разные группы исследователей [120]. Именно их усилия определяют успешное решение таких практически важных задач как перенос калибровок с одного прибора на другой [121], отбор переменных [122], построение робастных [123] методов анализа данных.
23
Модели, используемые при обработке экспериментальных результатов
1.3. Подготовка данных и обработка сигналов
Важным условием правильного моделирования и, соответственно, успешного физико-химического анализа, является предварительная подготовка данных, которая включает различные преобразования исходных, «сырых» экспсриментачьных значений. Простейшими преобразованиями является центрирование и нормирование [124].
Центрирование - это вычитание из исходной матрицы X матрицы М, т.с.
Х = Х-М. Обычно центрирование проводится по столбцам: для каждого вектора х}
вычисляются средние значения = (х^ + ... + Ху)//, тогда М=(|И|1,..., 1), где 1 - это
вектор из единиц размерности I. Иногда центрирование проводится и по строкам. Тогда вычисляют средние значения по строкам, которое вычитается из соответствующей
строки х[. В мультимодальных данных центрирование может проводиться по каждой моде отдельно. Центрирование необходимо в тех случаях, когда модель однородна, т.е. не содержит свободного члена. Оно понижает эффективный ранг модели на единицу и может улучшать точность описания. Это преобразование можно рассматривать как проецирование на нулевую главную компоненту [9], поэтому оно всегда применяется в методах ПЛС и МГК. Однако центрирование не применимо в том случае, когда в данных имеются пропуски.
Второе простейшее преобразование данных - это нормирование. Это преобразование, в отличие от центрирования, не меняет структуру данных, а просто изменяет вес различных частей данных при обработке. Нормирование также может проводиться по каждой моде. Нормирование по столбцам - это умножение исходной
матрицы X справа на матрицу \У, г.е. X = Х\\'. Матрица \У - это диагональная матрица размерности JxJ. Обычно диагональные элементы И'л равны обратным значениям
стандартного отклонения с!] = ~п2<) 110 столбцу х,. Нормирование по строкам
(называемое также нормализацией) - это умножение матрицы X слева на диагональную
матрицу \У, т.с. X = \УХ. При этом размерность \У равна 1x1, а се элементы и/„ - это
обратные значения стандартных отклонений строк х|. Комбинация центрирования и
нормирования по столбцам х,}={х,,~т})/с^] называется автошкалированием.
Нормирование данных часто применяют для того, чтобы уравнять вклад в модель от различных переменных (например, в гибридном методе ЖХ-МС), учесть
24
- Киев+380960830922