Содержание
ч<
Введение.......................................................... 4
Глава 1. Общий подход к моделированию игровой задачи преследования - уклонения ........................................ 14
1.1 Постановка игровой задачи. Функция качества............. 14
1.2 Разделение фазового пространства на подобласти.
Применение позиционных стратегий в каждой подобласти ....... 17
1.3 Использование гипотез о поведении преследуемого игрока. Сведение игровой задачи к задачам оптимального управления . 19
Глава 2. Решение задач оптимального управления ................... 22
« 2.1 Реализация оптимального синтеза для случая
7 А = ц = Л-2 ~ 0 .......................................... 22
2.1.1 Формулировка задачи оптимального управления ...... 23
2.1.2 Синтез управления ................................ 24
2.1.3 Обоснование оптимальности синтеза................. 29
2.2 Случай Л = д = 0, Ач ф 0 ............................... 36
2.2.1 Структура оптимальных траекторий.................. 37
2.2.2 Расчет оптимальной траектории .................... 40
2.3 Случай применения преследуемым игроком постоянного управления при Л ф 0 и /х ф 0 .............................. 47
* 2.3.1 Движение с постоянной кривизной траектории ....... 47
2.3.2 Прямолинейное движение ........................... 52
2
Глава 3. Численное моделирование.................................... 54
3.1 Построение барьерных поверхностей ......................... 54
3.1.1 Постановка задачи.................................... 55
3.1.2 Вспомогательная задача качества...................... 55
3.1.3 Численный пример .................................... 60
3.1.4 Особые траектории ................................... 62
3.1.5 Полная картина барьерных поверхностей ............... 66
3.2 Описание численных алгоритмов преследования второго игрока в области (7 ...................................?.. 69
3.2.1 Метод локальной оптимизации ......................... 70
3.2.2 Стратегия преследования вдоль линии визирования .. 71
3.2.3 Метод преследования, основанный на оптимальном ч синтезе для трехмерной упрощенной задачи................... 71
3.2.4 Метод преследования, основанный на гипотезе о движении преследуемого с постоянной кривизной траектории ........... 72
3.2.5 Метод преследования, основанный на гипотезе о прямолинейном движении преследуемого....................... 72
3.3 Примеры реализации рассмотренных алгоритмов преследования при малых отклонениях фактического движения преследуемого игрока от прогнозируемого ................................ 74
3.4 Численный пример задачи реализации субоптимального синтеза в подобласти фазового пространства........................ 84
Приложение ......................................................... 93
Литература.......................................................... 97
Введение.
Диссертация посвящена численному исследованию дифференциально-игровой задачи преследования - уклонения на плоскости, моделирующей воздушный бой двух самолетов. Цель проведенных исследований заключается в разработке и применении численных алгоритмов оптимизации управления для реализации субоптимального синтеза во всем фазовом пространстве исходной задачи.
Для моделирования процесса управления двумя или несколькими движущимися объектами в условиях конфликта, когда перед маневрирующими объектами стоят противоположные цели, а их возможности различны, широко используется аппарат теории дифференциальных игр, получивший значительное развитие в последние десятилетия [1,15,30,31,44, 46, 55]. В этих задачах традиционно рассматриваются интегральные или терминальные функционалы, которые обеспечивают применимость метода динамического программирования во всей рассматриваемой области [1, 46]. Однако для практики представляют большой интерес также задачи оптимального управления и дифференциальных игр, в которых минимизируемым (максимизируемым) функционалом является максимальное (минимальное) значение некоторой скалярной функции фазового вектора вдоль траектории динамической системы. Интервал времени может быть конечным или бесконечным. Оптимальные траектории таких задач лишь частично удовлетворяют принципу оптимальности Веллмана. Если у рассматриваемой траектории и ее последнего фрагмента минимум функции качества достигается в будущем, то принцип оптимальности выполнен, а в противном случае он, как правило, не имеет места. Поэтому метод динамического программирования приводит здесь к задаче со свободной границей.
При моделировании воздушного боя двух самолетов с помощью диф-а < ференциальной игры с функционалом типа минимума одной из возможных трактовок упомянутой скалярной функцией является вероятность поражения противника при применении некоторого средства поражения (оружия) в данной точке фазового пространства. Тогда атакующий само-
4
лет стремится занять позицию с максимально возможной вероятностью поражения и затем применить оружие.
Исследование задач подобного типа не было достаточно интенсивным вследствие их большей сложности, по сравнению с задачами, использующими функционалы традиционного типа. В последнее десятилетие завершен серьезный этап в обосновании метода динамического программирования для задач оптимального управления и дифференциальных игр [31, 67). Появились эффективные методы анализа и построения особых (сингулярных) траекторий [18, 57], решения задач с неизвестными границами [48, 51].
Некоторые необходимые условия оптимальности для игровых задач с подобным функционалом рассмотрены в [48, 57], задачи оптимального управления со свободной границей (имеющей иную природу) решены в [51]. В [57, 59] с помощью метода сингулярных характеристик построена неизвестная граница в игровой задаче сближение на конической поверхности с простым движением игроков.
Точное решение задач теории дифференциальных игр, с указанным выше функционалом, представляет большие трудности, особенно для нелинейных систем. В некоторых случаях для разработки алгоритмов численного построения синтеза управления бывает полезным рассмотреть ряд упрощенных задач, решение которых удается довести до конца, и на основе полученных результатов продвинуться к решению исходной задачи.
В силу указанной выше специфики, для построения субоптималь-ного синтеза в исходной игровой задаче предлагается использовать численные методы. Эти методы следуют идее, предложенной в [44], и основываются на некотором прогнозе относительно движения преследуемого игрока. Этот прогноз заключаются в предположении, что преследуемый игрок, начиная с текущего момента времени, применяет некоторое заданное программное управление. Такое упрощение позволяет свести исходную игровую задачу к задаче оптимального управления для одного игрока, решение которой в одних случаях удается получить аналитически [4, 5, 10, И, 14, 22], а в других - численно [3, 8, 21, 42, 44, 64]. Далее, на основе построенного синтеза для упрощенных задач, рассматриваются различные стратегии преследования первым игроком второго. Получен-
5
пые таким образом стратегии используются для построения субоптималь-* ного синтеза в исходной игровой задаче.
Модельные уравнения движения
В диссертации рассматривается игровая задача па плоскости. В ней участвуют два игрока: преследователь Р (первый игрок) и убегающий Е (второй игрок). Скорости игроков Р и Е постоянны и равны Ц и 14, а радиусы кривизны траекторий движения ограничены снизу заданными величинами и Д2 соответственно. Предполагается, что оба игрока в каждый момент времени управляют выбором значения кривизны своей траектории, располагая информацией о текущем положении системы в фазовом пространстве координат (г, </?ь ^2) и о величинах Ц, 1^, Д1, #2-Здесь г — расстояние между игроками, а <^1(^2) — угол между векторами скорости первого (второго) игрока и отрезком РЕ. Угол <р\ отсчитывается против часовой стрелки, угол <р2 — по часовой стрелке, (рис. 0.1).
Рис. 0.1
Такая динамика игроков в рассматриваемой задаче соответствует известной игре двух автомобилей, которая была впервые сформулирована и качественно исследована в книге Р. Айзекса [1].
Используя выкладки, аналогичные проделанным ранее [1], можно показать, что динамика относительного положения игроков описывается нелинейной системой трех дифференциальных уравнений
Г = V2C0S<P2 — ViCOS<Pi, (0.0.1)
V\ sin ipi + V2 sin <p2 V\ . V2 V\ sin + V2 sin lp2
4>i =-----------------------------4>2 = s~v------------------------
r Ri R2 r
6
и ограничениями
\и\ < 1, И < 1 (0.0.2)
Здесь гг, V — управляющие параметры игроков Р и Е.
Роли игроков фиксированы, а минимизируемым (первым игроком) и максимизируемым (вторым игроком) функционалом является минимальное значение заданной скалярной неотрицательной функции 5(г, <£2)
(функции качества) фазового вектора вдоль траектории динамической системы на достаточно большом промежутке времени. Функция качества 5(г, фх, ^2) характеризует вероятность поражения второго игрока первым из текущей позиции. Для рассматриваемой задачи она имеет вид
5(г, V?!, ц>2) = Аг(г - К)2 + А2В\т?((р\/2) + А^\х?{(р2/2) (0.0.3)
Нулевое значение функции качества соответствует ситуации, когда преследователь находится позади преследуемого на заданном расстоянии от него, а векторы скоростей сонаправлены и лежат на одной прямой (см. рис. 0.2).
Рис. 0.2
Отождествляя углы </>1, <р1 кратные 2л, будем считать, что в этой позиции фазовый вектор системы находится в точке О(/?,0,0).
Такая задача возникает при исследовании оптимального маневрирования самолетов с установившимися в горизонтальной плоскости скоростями в условиях конфликтной ситуации [10, 13, 45].
Основное отличие рассматриваемой задачи от работ этого направления [1, 10, 13, 28, 29, 38, 39, 45, 49, 50, 54, 56, 60, 66, 69] заключается в структуре функции качества (0.0.3), в состав которой, кроме расстояния,
7
входит угловое положение векторов скорости относительно линии визирования.
Аналитическое исследование игровых задач подобного типа представляет большие трудности, основная причина которых заключается в структуре минимизируемого функционала и существенной нелинейности уравнений динамики системы.
Следует также отметить, что используемая в работе модель применялась различными авторами для постановок как игровых задач [13, 23, 27, 28, 29,32,49, 55, 62, 63, 65,68], так и для задач оптимального управления [2, 4, 5, 7, 17,25, 26, 66]. В частности, в [4] синтезировано оптимальное управление, обеспечивающее наискорейшее попадание автомобиля из начального состояния в фиксированную точку плоскости движения. Эта же задача, но при более сложной модели движения, описываемой нелинейной системой четвертого порядка, решена в [5].
Подобная игровая задача, известная как “игра двух автомобилей”, но с другой скалярной функцией качества рассмотрена в [1, 47, 69), где получена зависимость радиуса захвата, обеспечивающего перехват менее скоростного, но более маневренного преследуемого, от линейных скоростей и максимальных скоростей разворота автомобилей. В [61] рассмотрен частный случай игровой задачи двух автомобилей, в которой и линейные, и угловые скорости обоих игроков полагаются равными.
Кроме того, в [16] исследовалась игровая задача двух автомобилей, в которой скорость преследуемого игрока полагалась малой по сравнению со скоростью преследователя (1^ •< У\ в (0.0.1)). В этой работе, с помощью метода малого параметра [40, 41], получен синтез, отражающий качественный характер оптимального управления игроков при малых скоростях преследуемого игрока.
Краткое содержание диссертации.
Диссертация состоит из введения, трех глав, приложения и списка литературы.
Первая глава диссертации посвящена формулировке исходной дифференциальной игровой задачи и описанию численного подхода для реа-
8
- Киев+380960830922