О задачах управления процессом наблюдения по неполным данным

Автор:

Джамбурия Леван Гивиевич

Тип роботи:

ил РГБ ОД 61

Рік:

2269

Артикул:

5171

179 грн

Вміст

- г -
СОДЕРЖАНИЕ
ВВЕДЕНИЕ................................................... 3
ГЛАВА І. ЗДАЧА О РАЗЛДКЕ ВИНЕРОВСКОГО ПРОЦЕССА ПРИ
НАЛИЧИИ ПЛАТЫ ЗА НАБЛЮДЕНИЯ .................... 16
§ I. Вспомогательные результаты ...................... 16
§ 2. Постановка задачи и формулировка основной теоремы 22
§ 3. Задача Стефана....................................27
§ Уравнение Беллмана .................................. 34
§ 5. Доказательство основной теоремы .............. 39
ГЛАВА П. ЗДАЧА ПОИСКА...................................... 50
§ I. Постановка задачи ............................... 50
§ 2. Задача Стефана....................................55
§ 3. Задача Стефана (продолкение) .................... 64
§ 4. Уравнение Беллмана .............................. 71
§ 3. Исследование производных и формула Ито .... 85
§ 6. Основная теорема ................................ 99
ГЛАВА Ш. ЗДАЧА О РАЗЛДКЕ ПРИ НАЛИЧИИ ПЛАТЫ ЗА НАБЛЮДЕНИЯ. ДИСКРЕТНОЕ ВРЕМЯ........................ 109
§ I. Постановка задачи и основная теорема .... 109
§ 2. Некоторые вспомогательные предлокения и рекуррентные соотношения III
§ 3. Доказательство основной теоремы............. Ц8
ЛИТЕРАТУРА.............................................. 129
- в -
ВВЕДЕНИЕ
I. В настоящей диссертации рассматриваются две задачи статистического последовательного анализа - задача о разладке и задача последовательного различения двух гипотез. Эти задачи рассматривались многими авторами в различных постановках (см. сч -И и указанную в них литературу). Как обычно, они сводились к задаче оптимальной остановки некоторого марковского процесса. Из общей теории оптимальной остановки марковских процессов, развитой в [I] , следует существование оптимально-
го момента остановки в задачах о разладке и последовательном различении двух гипотез. В случае непрерывного Бремени находится такие явное выражение для функции риска.
Предложенная в диссертации байесовская постановка этих задач отличается от обычных постановок тем, что наблюдению подлежит некоторый управляемый процесс. В связи с этим, кроме нахождения оптимального момента остановки, возникает проблема построения и оптимальной (или £ -оптимальной) стратегии. Рассмотрение управляемого наблюдаемого процесса в задаче о разладке обусловлено введением платы за наблюдение (в указанных выше работах рассматривался случай бесплатных наблюдений). В аналогичной постановке задача о разладке рассматривалась в [73 (в случае непрерывного времени). Основной результат этой работы заключается в определении структуры оптимальной стратегии при условии, что она существует. Отметим, однако, что раосукдения носят эвристический характер.
Задача последовательного различения двух гипотез в случае управляемого наблюдаемого процесса, или по другому, задача поиска, впервые была рассмотрена в [53 . В работе С83 были про-
-• ч -
долкены исследования, начатые в [5] . В [8] исследуются функции,1 определяющие границы в оптимальном правиле, по достижении которых следует прекращать наблюдение. Однако, в этих работах не было дано доказательство существования оптимального или £- оптимального правила. В работах [9] , [10] рассматривалась задача последовательного различения Уь гипотез в случае управляемого наблюдаемого процесса для некоторого узкого класса стратегия. Аналогичным задачам посвящены также работы [И] , [123 .
2. В настоящей диссертации задача о разладке в случае управляемого наблюдаемого процесса рассматривается как для непрерывного, так и для дискретного времени. В случае непрерывного времени предлагается следующая постановка задачи.
На вероятностном пространстве (XI, % (%)ш, Вт) заданы стандартный винеровский процесс \Д/= (\Д4)Зч) и независимая от него 3ь -измеримая случайная величина @ та-кая, что
&(9=о)=зС) &(0ИЛ0>о)=ен, -Ы, х>о, 9г*[(и].
Наблюдению подлекит процесс
^ о
где 9,-Ъп ,ч, и п.. ег - отличные от нуля константы, про-
"Ь (у$Х) -угА
цесс о(.=. (ос^., ]^>опринимает два значения - 0 и I и таков,
что уравнение (I) имеет единственное сильное решение. Процесс «А. называется стратегией и мнокество всех стратегий обозначается через ОХ • ХС* обозначает мнокество всех конечных марковских моментов относительно потока 6"-алгебр ). Пара Д=^,г) называется решающим
^ чло
- 5 -
правилом. Функция риска имеет следующий вид:
^С7Г)= ІК^ііг^ [ |-^.(т<0) + СІЧзгИгахС'С-До)-'-
<№■ -сеОГ ,г
+<цМ«Л ос5о1$ , С>О, С<>0,
Где ГотССС<0) - вероятность ЛОЖНОЙ тревоги, МтгУУ1ах(^0)О) - среднее время запаздывания в обнаружении момента разладки и - среднее время, за которое проводились на-
блюдения при использовании стратегии о(-0x^,5^ )-ио‘
Основной отличительной чертой этой постановки является то, что из-за наличия платы за наблюдения ^)
кроме нахоадения оптимального момента остановки, надо найти и оптимальную стратегию, т.е. определить, в какие промежутки времени следует проводить наблюдения.
В случае дискретного времени предполагается, что на вероятностном пространстве (А$&) заданы действительные случайные величины 0;^)^а)"' такие» что
Ртг ( 9 - о) = £7Г, 5(0=(г)=0-5()(/1-р)К р, Ы, 0<рН (кяИ;
&(Х - ) * • • Дк* х 9=к)=х,| 9= к)... х 0^к)=
= Р°(?^х4)...Рв(^х,м)Р1(?к$х|й).. -Р^Хк)=
= Рв(^^-)\н<хкн)Р1(^хК1...)^х11), 1<И,
где Р° и Р1 - вероятностные меры на (1Щ
‘ГМ^ЛГ-}-
-б -
Рассматривается последовательность случайных величин такая, что для каждого 1гИ Б*.-О или \ и 9Ц* - измерима, где 3~0^ =
=6-^X1] ( обозначает ^ в степени &к ). Последовательность Б= (Г) > Бг, •-•) называется стратегией. Множество всех стратегий обозначается через .Л. • Через ЗуС обозначается множество всех конечных марковских моментов относительно потока <э-алгебр (9\^ )к>\' ПаРа Д=(Б>,с) называется решающим правилом. Функция риска имеет вид:
о (ог)= і 1а і^ [ Рз_(0>г) + сМяИгах^-0, о) +
5бЛ т ЬМ*
Задача заключается в построении оптимальных или £ -оптимальных решающих правил, а в случае непрерывного времени и в наховдении явного выражения для функции риска Р СЮ •
3. Задача последовательного различения двух гипотез рассматривается в диссертации в следующей постановке.
На вероятностном пространстве £пД($иР) заданы винеровский процесс \Л/=(\Х{,9^) и Зъ - измеримая случайная величина 0 такая, что
Р(0=о)=ЭТо, Р(0И)=Ж|» Р(04)=эгд., %+%+%= I (2)
Надо различить гипотезы Н : © - О и Ц ; 0ФО по людениям за процессом
С = Ц^1(9Ч)+ 1(0.2)]^ * М4,
где процесс о1= )Ь£0 принимает два значения - Он
- 7 -
I и таков, что уравнение (3) имеет единственное сильное решение. Процесс оС называется стратегией. Множество всех стратегий обозначается . Через обозначается множество всех конечных марковских моментов относительно потока б -ал-гебр )ш- ПУСТЬ А “ *3^ - измеримая случай-
ная величина, принимающая значения 0 и I и пусть
\/( 9(о0-1^е=0)Оц+ 1^0)ОИ •
Различая гипотезы И и Н » надо минимизировать вели-
чину
М [сТ+\/(0Д)], С>0. (4)
Тройка Из) , удовлетворявшая условию (2), однозначно определяет пару чисел (х,ч) , где х= , Ч- —
О Яо 0 Я~о
и обратно. При решении этой задачи, удобно приписывать мере Р индекс и рассматривать выравение (4), как
функцию от • Задача заключается в нахождении явного
выракения для функции риска
где Д=(^,оС) - решающее правило, и построении оптимального решающего правила.
Этой задаче можно дать следующую интерпретацию. Некоторая цель может появиться на одном из двух направлений (О“'! или
б--г) . Есть возможность наблюдать в каждый момент времени ^ одно из этих двух направлений (выбрать ск^- 0 или I). Зада -
- 8 -
ча заключается в оптимальном выборе стратегии оС=. к,тА«о (в какой момент времени,какое направление следует наблюдать), в оптимальном выборе момента прекращения наблюдений (выбор в оптимальном выборе заключительного решения г есть цель на каком-нибудь из двух направлений ( не различая, на каком именно) или она отсутствует (выбор случайной величины сЬ )•
При решении задачи последовательного различения двух гипотез и задачи о разладке в случае непрерывного времени применяется следующий традиционный метод ( см* [I] , [13] )♦ Решается некоторая задача Стефана, а потом доказывается, что полученное решение совпадает с функцией риска. Затем, с использованием этого факта, строятся оптимальные и оптимальные решающие правила. Задача о разладке в случае дискретного времени решается с использованием общих результатов теории оптимальной остановки и планирования эксперимента, полученных в [14] .
4. Настоящая диссертация состоит из трех глав. В первой главе рассматривается задача о разладке винеровского процесса при наличии платы за наблюдения. В первом параграфе этой главы приведены некоторые вспомогательные результаты. В частности,в лемме I доказывается один частный случай формулы Ито, не являющийся следствием обобщенной формулы Ито из [15] . Заметим, что доказываемую в лемме I формулу монно такие получить из формулы Ито для выпуклых функций [16] .
В § 2 приводится постановка задачи. Там ке показывается, что функцию риска Офг) мокно представить в следующем виде
- 9 -
где ^.(06{|^Л) • Процесс ПС^'* удовлетворяет
уравнение
!7Г+ \ ^ , (б)
где
Й4-г(*1’5г",<Ь
Таким образом; поставленная задача приводится к задаче оптимальной остановки управляемого процесса (6) с функцией риска (5).
г \
В § 3 рассматриваются две задачи Стефана, при сх
14 л 1 ЩХн^
и при с >,£» Функции -1(ЗТ) и Ч>(<ЗГ) , являющиеся реше->
2.6 (Х+с) 2 и
ниями этих Задач, являются дважды непрерывно дифференцируемыми функциями в каждой точке интервала [0,1] за исключением одной точки,в которой вторая производная этих функций не существует. Этим фактом и вырокденностью диффузии процесса (б) и вызвано применение леммы I из § I при использовании формулы И то для функций и у(9Г) .
В § Ч доказано, что функции ^(5Т) и ^(9Г) удовлетворяют
уравнению
тт[\0-^'(дт)+с:л;, ±[|г"(50+
+ Х(/1-ЭТ)^1(0Г)+С9Г+С,; 1-ЭГ-^(ЭГ)] = 0 (7)
во всех точках интервала [0,1] , в которых существуют вторые
производные этих функций. Это уравнение, на самом деле, есть уравнение Беллмана для задачи оптимальной остановки управляемо-
-ГО-
го процесса (6) с функцией риска (5).
В последнем параграфе (§ 5) доказывается основная теорема
главы I (теорема I)* Из этой теоремы следует, что функция рис-
ъ \
ка ^(97) совпадает с функцией -£(5Г) , в случае
и с функцией '-р(ОТ) ,в случае С > —— . При этом су-
^ 1 1<з\\+сГ
щественно используется тот факт, что функции -£(9Г) и ^(9Г)
удовлетворяют уравнению (7). В случае г.. > —_ доказы-
2,б2(Х+ с Г
вается существование оптимального решающего правила Д*-(о<.;Т*} и устанавливается, что при ЗГ€ [Ъ;
^ ^ ^ 0 ;
и г*-- О при 9С £ ) ^
В случае с. < \ __ , ЗГеССЬВ) доказывается, что
2.е2(Х+сГ
для любого £.>О существует натуральное число п, , зависящее только от £. и 5Г , такое, что решающее правило д&= (<А т:£-);
о, <Г^А}
Ь *2*>А}
ЭГ^ЧВ};
~ (М] - целая часть кА ), А- — \[АК^л
где
к
а В есть единственное решение уравнения
и сА ■ ГСц.тС.-ЛЙ-и.) Л[НЫ-Н(А0 1 «1-А)”Зд Л
;
- II -
относительно 9Г в интервале (А>1) » является £ коптима ль-;
ным (константы и функция Н определены при форму-
лировке теоремы I).
Если ЭТсГВИ] > то О является оптимальным моментом остановки.
В главе П рассматривается задача последовательного различения двух гипотез в случае управляемого наблюдаемого процесса, или, по другому, задача поиска. В первом параграфе приводится постановка задачи. Там ке показывается,что для любой стратегии оС и момента остановки существует оптимальное заключительное решение <Х.^ . С использованием это-
СЧ; С
го факта, функция риска преобразуется к следующему
виду
«яЧічЛ* 1 л? к І+Аг+к '-I
^)^№^-Для нроцессов ХЫ И У° получена система стохастических дифференциальных уравнений:
^=^1+г-г +(9)
і ч
а - УЛ ? •
Таким образом, поставленная задача сводится к задаче оп~ тимальной остановки двумерного управляемого процесса (Х°*,
определяемого системой (9), с функцией риска (8). Заметим,

Ви є тут

О задачах управления процессом наблюдения по неполным данным

Вміст