Ви є тут

Динамические игры преследования на поверхностях

Автор: 
Ахметжанов Андрей Рауфович
Тип роботи: 
кандидатская
Рік: 
2009
Кількість сторінок: 
109
Артикул:
181509
179 грн
Додати в кошик

Вміст

Оглавление
Обозначения 4
Введение 5
1 Общие свойства оптимальных стратегий игроков в играх на поверхностях 20
1.1. Динамика игры и фазовое пространство................. 20
1.2. Первичное решение.................................... 24
1.3. Другие типы оптимальных траекторий................... 25
1.4. Необходимые условия глобальной оптимальности первичных стратегий игроков............................... 26
1.5. Уравнение Веллмана-Айзекса ......................... 28
1.6. Анализ многообразия Г с точки зрения теории вязкостных решений........................................ 30
1.7. Алгоритм построения решения.......................... 33
2 Многообразия с простой структурой стратегий 35
2.1. Дифференциальная игра на эллипсоиде вращения вокруг большой оси............................................... 36
2.2. Дифференциальная игра на плоском двустороннем эллипсе 44
2.3. Дифференциальная игра на эллипсоиде вращения вокруг малой оси................................................. 51
2.4. Особенности дифференциальной игры преследования в общем случае трехосного эллипсоида ....................... 55
3 Свойства фазового пространства игр на неограниченных поверхностях вращения 57
3.1. Постановка задачи. Определение многообразия Г . . . . 57
3.2. Определение многообразия В........................... 62
2
з
3.3. Геометрия дифференциальных игр на различных поверхностях вращения....................................... 64
3.3.1. Конус........................................... 65
3.3.2. Гиперболоид вращения ........................... 69
3.3.3. Параболоид вращения............................. 73
3.4. Картина оптимальных траекторий игроков на различных поверхностях вращения....................................... 75
3.4.1. Конус........................................... 75
3.4.2. Гиперболоид вращения ........................... 77
4 Понятие вязкостного решения уравнения Гамильтона-Якоби в моделях механики и физики 81
4.1. Математическая постановка задачи....................... 81
4.2. Решение начальной и терминальной краевых задач оптимального управления..................................... 83
4.3. Задачи оптимального управления и вариационною исчисления для автономных систем............................ 85
4.4. Задача вариационного исчисления с однородным лагранжианом ............................................... 86
4.5. Замечания по используемой терминологии................. 88
4.6. Иллюстративные примеры ................................ 89
4.6.1. Управление автомобилем.......................... 89
4.6.2. Дифференциальная игра на плоскости............ 92
4.7. Задача восстановления формы по двумерному изображению 96
4.7.1. Иллюстративный пример........................... 98
4.7.2. Сингулярная характеристика, бегущая вдоль границы................................................. 99
4.7.3. Иллюстративный пример (продолжение).......... 101
Литература 103
2,
4
Обозначения
Ен — ті-мерное вещественное евклидово пространство, М = К1. дії — граница множества ІІ.
0 = и и ди — замыкание множества II.
£/-+-V — непересекающееся объединение множеств II и V (и+У — и и К
такое, что ІІ П V = 0)
и\У — разность множеств и и V.
С (II) = {/: II —> К | / непрерывна}.
СЛ'((/) = {/: [/ —► К | / раз непрерывно дифференцируема к раз}.
|.г*| — модуль числа х. signa; — знак числа х Є М. т — транспонированне.
(х}у) — скалярное произведение векторов из М1', (.г, у) = х1 у.
V/ — вектор градиента скалярной функции /.
{^’(7} — скобки Якоби (Пуассона) для гамильтонианов Т7 и С.
= — «но определению», используется для вводимых обозначений.
□ — окончание доказательства.
У
Введение
Актуальность темы. Предметом диссертации является изучение геометрических свойств фазового пространства дифференциальных игр простого преследования на двумерных поверхностях (многообразиях). О исследовании применяется метод сингулярных характеристик, разработанный A.A. Меликяиом [56]. Платой в игре выступает время преследования одного игрока другим: преследователь пытается поймать убегающего за наименьшее время, а убегающий, наоборот, оттянуть этот момент как можно дальше. Радиус поимки полагается равным нулю. Эго означает, что под окончанием игры понимается совпадение координат игроков. Такая постановка задачи описывает игру степени в терминологии [1] в том смысле, что имеется критерий качества, который максимизируется одним игроком и мииимнзпруется другим.
В настоящей работе рассматривается простое движение игроков. Оно нередко используется для моделирования движения маневрирующих объектов. Простым называется движение безынерционной точки, управляемой но скорости, на которую обычно накладываются симметричные (сферические) ограничения. Решение ряда игровых задач с простыми движениями оказывается технически менее сложным, чем в задачах с более сложной динамикой. Сравнительно элементарным, например, является решение задач сближения и преследования с простым движением в евклидовом пространстве. В этом случае движение игроков происходит вдоль отрезка, соединяющего их, а цена игры вычисляется по известной простой формуле: как отношение начального расстояния между игроками к разности максимальных скоростей. Она остается верной в играх на гладких двумерных поверхностях (многообразиях) при достаточно малых значениях начального расстояния. В этом случае оптимальная траектория движения определяется кратчайшей геодезической линией, соединяющей игроков. Однако во многих случаях, например для
игры преследования на неограниченной поверхности вращения или на сильно вытянутом эллипсоиде, такое движение игроков не является оптимальным во всем фазовом пространстве. Для некоторой подобласти начальных позиций игроков на поверхности оптимальным поведением игроков является движение по особым (сингулярным) траекториям. В этом случае оно происходит либо по геодезическим линиям на поверхности, не соединяющим точки игроков, либо вдоль сингулярной гиперповерхности экивокального типа. Появление особых траекторий движения, как части картины оптимального синтеза, связано с тем, что на поверхности может быть две или более кратчайшие геодезические равной длины, соединяющие игроков. Исторически й очерк. Теория дифференциальных игр, как раздел теории управления, изучает задачи принятия решений в условиях конфликта нескольких лиц. Подобные ситуации часто встречаются в экономике, поведенческой экологии и других областях жизнедеятельности человека. Поэтому она имеет важные и многочисленные приложения.
Пусть управление игроков осуществляется но обратной связи, а динамика системы описывается обыкновенными дифференциальными уравнениями, в правую часть которых входят управляющие воздействия. Тогда полезное управление первого игрока рассматривается как действие, направленное на минимизацию некоторого функционала на множестве траекторий системы, а цслыо действий второго игрока является максимизация того же функционала. Управления игроков могут быть стеснены геометрическими ограничениями.
В работах Р. Айзекса [46)-[49], |1] был предложен метод исследования игровых задач и рассмотрено большое число содержательных примеров. Однако строгой математической постановки дифференциальной игры при этом не было. В дальнейшем были разработаны различные варианты формализации дифференциальных игр, среди которых был подход W.H. Fleming [40), основанный на аппроксимации дифференциальной игры многошаговыми играми, подход R.J. Elliott и N.J. Kalton [39], использующий понятие неуиреждающих стратегий. В данной диссертации мы придерживаемся позиционной формализации дифференциальных игр, введенной в работах отечественных ученых
H.H. Красовского и А.И. Субботина [10). В данном случае подход к решению дифференциальной игры заключается в поиске функции
G
цены, которая каждой точке пространства сосгонний системы ставит в соответствие оптимальный гарантированный результат в игре, начинающейся из этой точки. Зная функцию цены, можно построить стратегии оптимального управления по принципу обратной связи. Цена позиционной дифференциальной игры для заданной начальной точки совпадает с ценой в смысле W.H. Fleming или с ценой в классе неуиреждающпх стратегий в случаях, когда обе величины существуют. Также известны несколько иные подходы к формализации дифференциальных игр, разработанные Л.С. Поптрягиным, Б.Н. Пшеничным и представителями созданных ими научных школ. Отмстим, что довольно подробно базисная постановка задач обсуждается в монографии A. Friedman [42] по диффереицши 1 ь и ы м 111*1 >а м.
Была доказана [10] следующая теорема существования функции цены при достаточно общих условиях. Пусть динамика управляемой системы записывается в виде
где x(t) £ О, С R” - фазовый вектор в момент времени t, М - часть границы множества П, на которой заданы краевые условия, u(t) £ U и v(t) £ V - управления минимизирующего и максимизирующего игроков; U и V - компакты в конечномерных пространствах. Пусть далее функция / непрерывна по совокупности переменных, удовлетворяет условию подлинейного роста и локальному условию Липшица по переменной х. Кроме того,
Н(х,р) = min max(p, f{x,u, v)) — max min (p, /(х,и,у)).
ueU veV v€V ueU
Тогда в рамках позиционной формализации указанные условия обеспечивают существование функции цены К°(‘): —> [0, оо]
дифференциальной игры быстродействия.
Кроме того, были сформулированы и доказаны аналогичные теоремы существования и единственности обобщенного решения уравнения Гамильтона-Якоби на гладких многообразиях [11].
Р. Айзекс первым написал дифференциальное уравнение для функции цены. В случае задачи быстродействия оно имеет вид
•НО — /ОНО» «(0* И0)> £ > 0j #(0) = хо £ М
(1)
7
У(х) = 0, :г Є М С Ш.
В монографии [1] было показано, что классическое решение краевой задачи (1) (если оно существует) совпадает е функцией цены У{х) дифференциальной игры быстродействия. Таким образом, при некоторых дополнительных условиях гладкости для нахождения дифференцируемой функции цены может быть использован классический метод характеристик [31, 12|.
В общем случае функция цены дифференциальной игры быстродействия может быть негладкой, разрывной или уходить в бесконечность. Метод построения кусочно-гладкой или разрывной функции цены, предложенный Р. Айзексом, заключается в последовательном нахождении гладких ветвей решения при помощи классических характеристик. Основная трудность применения метода Айзекса состоит в обнаружении поверхностей стыковки (сингулярных поверхностей) гладких ветвей функции цены. Р. Айзексом были рассмотрены различные типы сингулярных поверхностей и некоторые способы их построения.
При развитии теории дифференциальных игр необходимо возникают нелинейные уравнения в частных производных первого порядка, в которые могут входить значения самой функции У{х). Иными словами, уравнения Беллмана-Лйзекса имеют вид
Здесь под функцией У = У(х) понимается неизвестная функция п переменных х = (ад,...,жп), Р - скалярная функция, называемая гамильтонианом.
В случае, когда функция У{х) и гамильтониан -Р(.т, V, р) дважды дифференцируемы но своим аргументам, решение задачи (2) локально сводится к интегрированию системы классических (регулярных) характеристик
Однако во многих задачах теории оптимального управления и дифференциальных игр одна или обе функции У(х), Р(х,У,р)
(2)
с краевыми условиями
у(х) = \у(х), х є м с ап.
X = Рр, У = (р, Рр) V = -Ра: - рРу-
(3)
8