Вы здесь

Параметрические нелинейные модели теории катастроф в методах статистической обработки данных эксперимента

Автор: 
Глухова Светлана Ивановна
Тип работы: 
кандидатская
Год: 
2000
Количество страниц: 
110
Артикул:
1000259513
179 грн
Добавить в корзину

Содержимое

Содержание
ВВЕДЕНИЕ. стр. 3-5
1 ЛАВА 1. ОСНОВНЫЕ МЕТОДЫ СТАТИСТИЧЕСКОГО АНАЛИЗА В ОБРАБОТКЕ ДАННЫХ. стр. 6-26
1.1. Роль статистической обработки в анализе данных эксперимента. стр. 6-9
1.2. Метод главных компонент. стр. 9
1.3. Факторный анализ. стр. 10-14
1.4. Кластерный анализ. стр. 14-17
1.5. Дискриминантный анализ. стр. 17-21
1.6. Регрессионный анализ. стр. 21-22
1.7. 11ерспективы развития методов обработки данных на ЭВМ. стр. 22-26
ГЛАВА 2. НЕЛИНЕЙНЫЕ ПАРАМЕТРИЧЕСКИЕ МЕТОДЫ СТАТИСТИЧЕСКОЙ ОБРАБОТКИ ДАННЫХ С ИСПОЛЬЗОВАНИЕМ МОДЕЛЕЙ КАСПОИДНЫХ КАТАСТРОФ.
2.1. Теория катастроф как метод статистических исследований. стр. 27-29
2.2. Каспондные особенности как модели многомодальных одномерных статистических распределений. стр. 30-36
2.3. Метод моментов для определения параметров многомодальных распределений.
стр. 37-50
2.4. Метод максимального правдоподобия. стр. 51-54
2.5. Численные методы поиска максимума функции максимального правдоподобия.
стр. 55-60
2.6. Методы расчета параметрических интегралов от экспоненциальных функций.
стр. 61 -64
2.7. Проверка гипотезы о многомодальном распределении. стр. 65-69
ГЛАВА 3. АНАЛИТИЧЕСКОЕ МОДЕЛИРОВА11ИЕ. стр. 70-93
3.1. Метод моментов. стр. 70-77
3.2. Метод максимального правдоподобия. сгр. 77-82
3.3. Описание программного комплекса расчета параметров катастрофы "сборки".
стр. 83-90
3.4. Программный модуль накопления и предварительной обработки данных.
с гр. 91-93
ЗАКЛЮЧЕНИЕ. стр. 94-95
ПРИЛОЖЕНИЕ 1. стр. 96-105
Анализ положений равновесия канонической катастрофы сборки.
СГ1ИСОК ЛИТЕРАТУРЫ. стр. 106-110
ВВЕДЕНИЕ
Для решения задач, связанных с анализом данных при наличии случайных воздействий, математиками и другими исследователями (биологами, психологами, экономистами и т. д.) за последние двести лет был выработан мощный и гибкий арсенал методов, называемых в совокупности математической статисткой (а также прикладной статистикой или анализом данных). Эти методы позволяют выявлять закономерности на фоне случайностей, делать обоснованными выводы и прогнозы, давать оценки вероятностей их выполнения или невыполнения. В настоящее время математическая статистика претендует на роль математического языка экспериментатора. Статистические методы занимают некоторое среднее место между полной (а потому недостижимой) объективностью и чисто субъективной оценкой на глаз, причем при правильном применении статистических методов и добросовестности субъективной оценки обычно не возникает противоречия между этими двумя подходами.
Необходимо отметить, что в подавляющим большинстве экспериментов важным моментом предварительного анализа данных является проверка соответствия результатов измерения закону нормального распределения. Это тем более важно, что все параметрические критерии, применяемые в регрессионном и дискриминантном анализах, являются очень чувствительными к отклонениям от предположения о нормальности. Между тем существует значительное количество данных, либо вообще не поддающихся анализу с помощью кривой нормального распределения, либо не удовлетворяющих основным предпосылкам, необходимым для ее использования. В связи с этим, большой перспективой для статистической обработки таких данных является применение мультимодальных законов распределения и использование математических моделей теории катастроф.
Мультимодальные распределения имеют тесную связь с распределениями нормированных сумм зависимых случайных величин: согласно центральной предельной теореме такие распределения в пределе представляют собой взвешенные нормальные распределения, количество мод которых, вообще говоря, зависит от среднего уровня корреляций между слагаемыми. Методы теории катастроф позволяют изучить топологию таких распределений, выявить моменты смены мод, получать оценки но математическому ожиданию с устраненной аномалией дисперсии.
В связи с последним отметим, что использование средних величин во многих исследованиях требует определенной осторожности - должен быть
4
соответствующий контроль дисперсии оцениваемых по среднему случайных величин, так как возможна аномалия дисперсии. Это служит указанием на то, что “классические” оценки по среднему значению нуждаются в серьезной корректировке. И причина тому - проявление мультимодальности (чаще бимодальности) распределения.
Методы математической статистики позволяют установить форму и степень связи между изучаемыми явлениями, но они плохо пригодны для выявления внутренних, скрытых механизмов установления связей. 11оэтому для выводов качественного характера об исследуемых объектах представляется наиболее перспективным применение методов теории катастроф для построения соответствующих моделей на основе имеющихся статистических данных.
В то же время ни в коей мере не следует переоценивать роль и значение закономерностей, полученных при использовании статистических программ, целиком полагаясь на их "бесстрастность" и объективность. Человеческий фактор пронизывает насквозь всю автоматическую систематизацию данных. Выбор наиболее существенных характеристик осуществляется разными исследователями по-разному, поскольку' выбранные характеристики, описывающие объект исследования, несут на себе субъективизм исследователя, т. е. его знание исследуемого объекта, его догадки и гипотезы. Кроме этого, субъективизм проявляется в предпочтении исследователем определенных статистических приемов анализа, выборе определённые критерии значимости и т. п. Но с научной точки зрения нельзя основывать любое утверждение на анализе каким - то одним, излюбленным методом, независимо от того, что показывает критерий. Подтверждение всегда необходимо искать как в независимом повторении результатов эксперимента. І Іозтому гак важно обеспечить исследование адекватными математическими и вычислительными методами. Разработка новых методов анализа, основанных на интеграции методов математической статистики и математических моделей теории катастроф, учитывающих нелинейный характер изучаемых явлений, является предметом настоящего исследования. Диссертация посвящена разработке методов статистической обработки данных с использованием нелинейных параметрических моделей каспоидных катастроф, исследование их характеристик, количественного и качественного соответствия этих моделей сложным объектам экспериментальных исследований. Так использование разработанных методов в анализе медицинских данных позволяет выполнить оценку достоверности выделения клинических признаков,
5
определяющих тяжесть заболевания, развитие осложнений и оценить исход заболевания.
Диссертация состоит из введения, трех глав и заключения.
Первая глава посвящена обзору литературы и анализу применения методов многомерной статистики в обработке экспериментальных данных. В качестве примера рассматриваются данные клинической практики. Во второй главе дано подробное описание разработанных методов построения статистических моделей с использованием математического аппарата теории катастроф. Третья глава включает анализ результатов работы программ построения моделей катастрофы сборки методом моментов и методом максимального правдоподобия при использовании как аналитических моделей, так и данных эксперимента.
В ходе выполнения работы был разработан комплекс вычислительных программ, описание которых находятся в тексте главы 3. Программный комплекс содержит:
1. программы сбора экспериментальных данных,
2. программы построения модели катастрофы сборки методом моментов,
3. программы построения модели катастрофы сборки методом максимального правдоподобия.
Основные положения диссертации докладывались на всеармейской научно-практической конференции «Здоровье военнослужащих и статистические методы его изучения» (ноябрь 1999 года, Военно-медицинская академия), на научно-практической «Возможности и перспективы агрессивной, инвазивной терапии и пластической реконструктивной хирургии» (ГВКГ им. акад. Н.Н. Бурденко, декабрь 1999 года).
Созданная система анализа и хранения данных с 1998 года внедрена в практику математической обработки данных исследований врачей-ученых Главного военного клинического госпиталя имени академика
Н.Н. Бурденко.
По теме диссертации опубликовано 11 статей в центральных журналах и сборниках научных работ.
Текст диссертации изложен на 110 страницах, включает 10 таблиц, 20 рисунков, 4 страницы указателя литературы. Библиографический указатель содержит 54 работы, из них 41 па русском и 13 на иностранных языках.
6
ГЛАВА 1. ОСНОВНЫЕ МЕТОДЫ СТАТИСТИЧЕСКОГО АНАЛИЗА В ОБРАБОТКЕ ДАННЫХ.
1.1. Роль статистической обработки в анализе данных эксперимента.
Данный обзор посвящен основным методам многомерной статистики, применяемых в анализе экспериментальных данных, и использует опыт совместной работы специалистов в области медицины и математики. В настоящее время развитие медицины приводит к парадоксальной ситуации: нем больше сведений о больном мы имеем, тем труднее их осмыслить и систематизировать, составить по ним общее представление о состоянии больного. Врач тонет в огромном потоке информации.
Методы статистической обработки позволяют установить форму и степень связи между изучаемыми явлениями, но они не могут выявить внутренний механизм установления связей. Выявление конкретного содержания материальных процессов, посредством которых эта связь осуществляется и которыми она определяется, является предметом специального всестороннего качественного анализа.
Статистическое описание совокупности объектов занимает промежуточное положение между индивидуальным описанием каждого из объектов совокупности, с одной стороны, и описанием совокупности по се общим свойствам, совсем не требующим ес расчленения на отдельные объекты. - с другой. В практике многих исследований приходится проводить выборочные обследования. Это объясняется тем, что, как правило, невозможно изучить всю совокупность (больных) из-за большого ес объема и недостатка материальных средств. Выборочные обследования обладают рядом преимуществ: позволяют сократить затраты на сбор и обработку информации и добиться большей оперативности. Объекты выборочной совокупности подбираются таким образом, чтобы они в целом воспроизводили
7
параметры генеральной совокупности. Общие черты статистического в различных областях знания сводятся к подсчету объектов, входящих в те или иные Группы, рассмотрению распределения количественных признаков, использованию теории вероятностей при оценке достаточного числа наблюдений для тех или иных выводов и т. п. [18].
Эта формальная математическая сторона статистических методов исследования, безразличная к специфической природе изучаемых объектов, позволяет использовать математическую статистику как универсальный инструмент обработки экспериментальных данных в совершенно различных научных дисциплинах - от физики и химии до биологии и медицины. В настоящее время математическая статистика претендует на роль математического языка экспериментатора. Статистические методы занимают некоторое среднее место между полной (недостижимой) объективностью и чисто субъективной оценкой на глаз, причем при правильном применении статистических методов и добросовестности субъективной оценки обычно нс возникает противоречия между эти м и дву м я подходам и.
Возможность формализации методов математической статистики и реализации их программно позволяет подойти к вопросу автоматизации обработки экспериментальных данных, сведя до минимума влияние человеческого фактора на результат обработки. "Бесстрастность" машины, строгое исполнение заданного алгоритма представляются надежной гарантией получения объективной информации, гарантией достоверности обнаруженных машиной эмпирических зако \ ! о м ер ностей.
В то же время ни в коей мере нс следует переоценивать роль и значение статистических программ, целиком полагаясь на их объективность. Выбор наиболее существенных характеристик осуществляется разными исследователями по-разному, поскольку выбранные характеристики, описывающие объект исследования, несут на себе субъективизм исследователя, т. с. его знание
исследуемого объекта, его догадки и гипотезы. Кроме этого, при использовании статистических пакетов программ исследователи предпочитают определенные статистические приемы анализа и выбирают определенные критерии значимости и т. п.
Большое значение придается обобщающим показателям в экспериментальных исследованиях, где широко используются, в частности, средние величины, т. е. такие числа, с помощью которых можно дагь обобщающую характеристику каждого конкретного изучаемого объекта по совокупности количественно выраженных признаков (в медицине это средние показатели уровня артериального и венозного давления; показателей ЭКГ, ЭЭГ и т. д.) Например, в практике научных медицинских исследований широко используются различные виды относительных чисел (процент выживших и умерших экспериментальных животных; процент заболевших среди привитых и не привитых; оперируемость; исходы лечения), особенно в исследованиях организационных проблем здравоохранения; характеристика состояния и сдвигов в здоровье населения) [10]. Так для проверки достоверности различий средних арифметических двух групп больных применяются двух выборочный t-критерий Стыодента (при равенстве дисперсией) и t-критерий Уэлча (при их неравенстве). Для анализа различий между двумя группами с многомерным набором параметров прибегают к статистике Т- -Хотеллипга [36].
Необходимость обобщения большого количества получаемой информации об исследуемых системах, возможность прогноза привели к тому, что в практику стали внедряться методы многомерной статистики. В основе данных методов лежит статистический анализ корреляционной матрицы, позволяющий осуществить системный подход к рассматриваемым явлениям [4, 23, 37, 43]. Гак, обработка медицинских данных с применением факторного и кластерного анализов позволяет объединить признаки в группы, идентичные понятию «синдрома» заболевания, получить группировку больных, выявить связи между признаками, на их основе
9
построить новые гипотезы о причинах выявленных зависимостей. На этапе диагностического заключения могут использоваться регрессионный и дискриминантный анализы 137].
В таблице 1.1 представлены основные математические методы, используемые для диагностики и прогноза в соответствии с поставленными задачами и их значение.
Не останавливаясь на общеизвестных 1 - критерии Стьюдента. I - критерии Уэлча и - критерии Хотеллинга, методика применения которых хорошо описана в известных руководствах [27, 46], кратко характеризуем методы многомерной статистики.
1.2. Метод главных компонент.
Для обнаружения скрытых общих факторов, объясняющих связи между наблюдаемыми признаками (параметрами) объекта, используют метод главных компонент (МИК). МИК осуществляет переход к новой системе координат уу...,Ур
в исходном пространстве признаков которая является системой
ортиормированных линейных комбинаций
уДх) = <*„(*, -ту)+..ларі{х;,-т.Х
I»1 (./ = Кр); (1-і)
;-1
п
=0 (М = 1р,У**),
где т,-математическое ожидание признака х,. Линейные комбинации выбираются таким образом, что среди всех возможных линейных нормированных комбинаций исходных признаков вида (1.1) первая главная компонента >Дх)
обладает наибольшей дисперсией. Вторая главная компонента имеет наибольшую дисперсию среди всех оставшихся линейных преобразований вида (1.1), некоррелированных с первой главной компонентой. Таким образом, получается