Ви є тут

Аппроксимация второго порядка и бутстреп для усеченных сумм и L-статистик

Автор: 
Грибкова Надежда Викторовна
Тип роботи: 
Докторская
Рік: 
2011
Артикул:
321742
179 грн
Додати в кошик

Вміст

Оглавление
Введение 4
1 Аппроксимация второго порядка распределений усеченных сумм 24
1.1 Введение и основные обозначения...................................24
1.2 Оценки точности нормальной аппроксимации..........................31
1.3 Асимптотические разложения........................................37
1.4 Случай легких хвостов у Р........................................ 45
1.5 Аппроксимация (/-статистиками.....................................48
1.5.1 (/-статистическая аппроксимация усеченной суммы .... 49
1.5.2 Аппроксимация оценки асимптотической дисперсии .... 54
1.6 Доказательства....................................................58
1.6.1 Доказательство результатов раздела 1.2......................58
1.6.2 Доказательство результатов раздела 1.3......................62
.>
1.6.3 Доказательство результатов раздела 1.4......................69
2 Усеченное среднее. Асимптотическое распределение и то п -бутстреп 72
2.1 Введение и основные обозначения.................................. 72
2.2 Асимптотическое распределение Тп и Т„т, состоятельность
тп < п-бутстрена................................................. 77
2.3 Некоторые применения..............................................80
2.4 Доказательства ..................................................82

1
2.5 Численный пример
87
3 Асимптотические разложения типа Эджворта для усеченного
среднего 91
3.1 Введение......................................................91
3.2 Формулировка результатов........................................93
3.3 Асимптотическая аппроксимация смешения.........................100
3.4 (/-статистическая аппроксимация................................105
3.4.1 Аппроксимация для усеченною среднего.....................105
3.4.2 Аппроксимация оценки асимптотической дисперсии . . . .108
3.5 Доказательства.................................................111
3.5.1 Доказательство теоремы 3.1...............................111
3.5.2 Доказательство теоремы 3.2...............................113
3.5.3 Доказательство теоремы 3.3...............................115
3.6 О связи с результатом для симметрических статистик.............118
4 Корректность второго порядка бутстреп-аппроксимации 124
4.1 Введение.......................................................124
4.2 Формулировки результатов.......................................126
4.3 Об эмпирических разложениях Эджворта, т ф п-бутстрепе и
экстраполяции..................................................136
4.4 "Простой'' бутстреп (т = гг)...................................139
4.4.1 "Простой" бутстреп для ТГ|(2)............................139
4.4.2 "Простой" бутстреп для Тт1(1)............................140
4.5 Численное моделирование, примеры...............................141
4.6 Доказательства.................................................146
4.6.1 Вспомогательные результаты...............................146
4.6.2 Доказательство теорем 4.1 и 4.2..........................153
5 Вспомогательные результаты типа Бахадура - Кифера 156
5.1 Представления для эмпирической квантили фиксированного уровня 156
2
5.1.1 Формулировки лемм.........................................156
5.1.2 Доказательство леммы 5.1.................................160
5.1.3 Доказательство леммы 5.2.................................1G2
5.2 Представления для выборочных квантилей в случае последовательностей, представления для "хвостовых” квантилей 164
5.2.1 Формулировки результатов..................................165
5.2.2 Доказательство теоремы 5.1...............................174
5.2.3 Доказательство теоремы 5.2...............................178
5.2.4 Доказательство следствия 5.3.............................181
5.3 Представления для m Ф n-бутстреп-квантили.......................182
5.3.1 Формулировки лемм.........................................182
5.3.2 Доказательство леммы 5.4.................................184
5.3.3 Доказательство леммы 5.5.................................191
6 Неравенства типа Берри — Эссеена для L-статистик 195
6.1 Введение........................................................195
6.2 Обобщение результата В ван Цвета................................196
6.3 Усечение на уровне центральных порядковых статистик.............201
6.4 Фиксированное усечение..........................................208
6.5 Вспомогательные результаты......................................209
6.5.1 Оценки моментов порядковых статистик......................209
6.5.2 Неравенства для моментов..................................215
7 Бутстреп для L-статистик 217
7.1 Введение........................................................217
7.2 Асимптотические свойства нормирующих постоянных.................219
7.3 Бутсгреп-аппроксимация распределений............................230
Список литературы 234
3
Введение
В диссертации исследуются асимптотические свойства распределений усеченных сумм, /устатистик - линейных функций порядковых статистик - и их бутстреп-версий; под усеченной суммой мы будем понимать, как обычно, сумму элементов вариационного ряда, в котором удалено некоторое количество крайних наблюдений.
Хорошо известно, что /-статистики и, в частности, усеченные суммы играют ключевую роль в теории робастных статистических выводов (см. например, [17], [18], |85|, |1Ю|). Впервые использование взвешенных сумм элементов вариационного ряда в качестве оценок параметров распределений было предложено и обосновано, согласно историческому очерку С.Стиглера [137], П.Дэнисллом [57] в 1920 году
Па протяжении примерно полувека, начиная с конца 40-х годов XX-го столетия, изучение асимптотических свойств распределений //-статистик привлекало внимание многих видных ученых, таких, как Дж.Тыоки, П.Бикел, С.Стиглер, Г.Шорак, Д.Мэйсон, В.ван Цвет. П.Хыобер, П.Холл и др.
Значительный интерес к /-статистикам был обусловлен, конечно, в первую очередь приложениями, поскольку /-статистики могут служить оценками параметров, причем надлежащий выбор коэффициентов /-статистики позволяет сводить к минимуму нежелательное влияние посторонних и резко выделяющихся наблюдений, что делает эти оценки устойчивыми (робастными). Однако существовала и другая немаловажная причина чисто теоретического интереса к ним - это своеобразная, связанная с упорядочением природа зависимости слагаемых, образующих /-статистику, которая делает изучение
4
ее асимптотики довольно трудным. Необходимость развития асимптотической теории //-статистик начиная с 70-х годов ХХ-го века стимулировала открытие в этой области новых подходов и методов. В частности, в работе П.Бикела [35] было впервые упомянуто о возможности аппроксимации £-статистик [/-статистиками второго порядка. Впервые этот подход был успешно применен Р.Хелмерсом [89] для получения неравенств типа Верри - Эссеена для /г-статистик. Асимптотическая теория (/-статистик была существенно продвинута в 80-90-е годы, что позволило эффективно использовать метод II-статистической аппроксимации для исследования асимптотических свойств симметричных статистик. Как Л-статистики, так и (/-статистики являются симметричными функциями элементов выборки, то есть принадлежат классу так называемых симметричных статистик. В диссертации свойства усеченных сумм и /-статистик анализируются, в том числе, в контексте теории симметричных статистик.
Дальнейшая часть введения организована следующим образом: в п. 1-4 приведен краткий обзор литературы, относящейся к теме диссертации: п. 1 посвящен предельным распределениям усеченных сумм и //-статистик, п. 2 - оценкам скорости сходимости и асимптотическим разложениям, п. 3 -представлениям типа Бахадура - Кифера, в п. 4 кратко изложена суть бутстреп-метода. В п. 5 мы даем обзор основных результатов диссертации, в п. 6 даны сведения о публикациях и апробации работы. Формулировки и доказательства результатов приведены в основных главах 1-7
1. Об асимптотике первого порядка для усеченных сумм и Ь- статистик
Пусть ХЬХ2,... обозначает последовательность независимых одинаково распределенных случайных величин (с.в.) с функцией распределения (ф.р.) Г, У1п < • - • < п — первые п наблюдений, упорядоченные по абсолютной величине. Влияние крайних членов вариационного ряда на асимптотику сумм
5
исследовалось многими авторами. В работах Д.Дарлинга [58), Д.3.Арона и А.А.Боброва [1), П.Холла [78), Дж.Тюгелса [142) изучалось предельное распределение статистик вида ТП[к = 22И=1 ~ £?=1 *»-»+1-п» когда к е
N фиксировано и распределение Р принадлежит области притяжения устойчивого закона с показателем 0 < а < 2. Они показали, что при определенном выборе последовательностей нормирующих постоянных ап. Ьп статистика [Тп<к - лп)/6п сходится по распределению к невырожденной с.в., причем предельное распределение отличается от устойчивого закона, к которому сходится неусеченная сумма. В недавней работе Ю.А.Давыдова и А.В.Нагаева [59] этот результат был обобщен на многомерный случай упорядоченных по модулю независимых одинаково распределенных случайных векторов.
В работе Ш.Чёргё и др. (52] такая же задача рассматривалась в более естественной с точки зрения статистических приложений постановке: авторы рассматривали с.в. вида ТиАт = Х1П, где Х1 „ < ••• < Хпп
порядковые статистики, соответствующие выборке к, т
фиксированные натуральные числа. В работе (52) найдены условия, при которых распределение с.в. (ТПгк тп—ап)/Ьп сходится к невырожденному пределу, когда Р принадлежит области притяжения устойчивого закона с показателем О < а < 2, аъ, Ьи - определенные последовательности нормирующих
постоянных, предельные распределения при фиксированных к, тп полностью описаны в (52]. Оказалось, что в случае 0 < а < 2 удаление даже одного крайнего наблюдения меняет тип предельного распределения.
Совершенно иное асимптотическое поведение демонстрирует статистика ТП1к,т = 5^Г-Дс+1 Хх.п в случае, когда кит не фиксированы, а являются последовательностями 1 < к.п < п - тп < п, причем такими, что А тп —♦ оо, п —> оо. Именно этот случай в основном рассматривается в данной работе. Здесь и далее аЛЬ := тш(а, 5), аУ Ь := тах(а, Ь). Хорошо известно, что с точки зрения асимптотики распределений различными оказываются ситуации, когда: (г) усечение производится на уровне центральных порядковых статистик 0 <
б
liminf k7l/n < limsup(n — mn)/n < 1; (гг) общий случай, когда lirninf кп/п = О и /или limsup(n — mn)/n = 1.
Если lim ки/п — lira тп^/п - 0, кп Л тп —> оо, п —> оо, то статистика Тп^,т называется слегка (или слабо) усеченной суммой.
В 1973 году С.Стиглер [136] получил результат, являющийся теперь классическим, для усеченного среднего Тп = (п - [ап] — \0п\)~1 п’
где 0 < а < 1 — 0 < 1 ([/с] — целая часть числа к), а, 0— фиксированные числа. В работе [136] для произвольной ф.р. F найдено предельное распределение определенным образом нормированной с.в. Тп и доказано, что это предельное распределение является нормальным тогда и только тогда, когда квантили уровня а и 1 - 0 определены однозначно, т.е. когда инверсия F~[(u) = inf {а: : F{x) > н}, 0 < а < 1, непрерывна в точках а и 1 — в.
В работах Ш.Чёргс и др. |55|, II.Гриффина и В.Пруитта |77| результат С.Стиглера обобщен на случай произвольных урезающих последовательностей, когда к» Л гп71 -* ос. В [55] были найдены необходимые и достаточные условия существования последовательностей ап, 6П) таких, что (Tnfcim — On)/bn —> N(0.1) (эти условия будут приведены в главе 1); в [77] другим методом были найдены эквивалентные необходимые и достаточные условия. Кроме того, в работах [55], [77] характеризован класс частичных пределов последовательности распределений с.в. {Тпк,т — ап)/Ьп и описаны достаточные условия для того, чтобы F принадлежала области частичного притяжения конкретного распределения из этого класса. В [77] показано, что в частном случае слабо усеченных сумм, когда (кп V тп)/п —* 0, кп А т„ —► оо, п —► оо. этот класс частичных пределов остается еще довольно широким, хотя и определяется нормальными законами. Элементы этого класса имеют следующую форму: tjVi + /(Аг2) — <у(Л/3), где /Vb Л/3 - независимые стандартные нормальные с.в., т > 0, /, у - произвольные неубывающие выпуклые функции.
Асимптотическая нормальность L-статистик вида Ln = п-1/2 где Схп - вещественные числа, при различных вариантах предположений о F и о весах ct n была доказана в работах П.Бикела [34), X.Чернова и др. [51].
7
З.Говиндараюлу [73], Д.Мура |115), Д.Мэйсона [111], С.Стиглера [135], [138], Г.Шорака [128|, [129|. Наиболее общие результаты были получены
Г.Шораком [129], С.Стиглером [138] и Д.Мэйсоном [111). Существование многих вариантов предположений, определяющих асимптотическую нормальность /✓-статистик, объясняется хорошо известным фактом, обсуждавшимся в ряде работ (см, например [90], [138]), состоящим в возможности перенесения тяжести условий с ф р. Р на веса с,,П) и наоборот. Для целей статистических приложений предпочтительными являются, конечно, варианты условий, которые налагают меньше ограничений на исходную ф.р. Р.
2. Аппроксимация второго порядка распределений усеченных сумм и Ь-статистик
Следующей задачей после нахождения предельных распределений является оценивание скорости сходимости и получение уточняющих асимптотику разложений.
Получению оптимальных оценок порядка п~х/2 в центральной предельной теореме для Ь-статистик предшествовало множество работ, в которых не были найдены оптимальные оценки, но последовательно развивались подходы к решению этой задачи. Одной из первых работ в этом направлении была статья В . Розен к раитца и Н.О’Рэйлли [123], в которой с использованием разложения Скорохода была получена оценка порядка п~1/л. Близкие к оптимальным оценки порядка {\о%п/п)]/2 для усеченных сумм были получены В.А.Егоровым и В.Б.Невзоровым [8]. Б работе [65] те же авторы получили оценку порядка п-1/2 для //-статистик в случае равномерного исходного распределения и оценку порядка \о&п/пх12 в общем случае.
Первые оптимальные результаты, дающие оценки порядка тг1^2, стали появляться в конце 70-х годов XX века. В [45] С.Бьёрв методом П.Бикела [35] впервые получил оценку порядка п~1//2 для усеченных //-статистик, т.е. дня случая, когда с,)П =■ 0 для г < ап, г > п - рп, 0 < а < 1 - Р < 1. Однако
8
его результат при слабых ограничениях на коэффициенты - равномерной по п ограниченности среднего арифметического модулей весов С{<п - налагал суровые ограничения на исходное распределение, требуя существования трех непрерывных производных у F"1 в открытой области, содержащей отрезок
lor.l-Д.
Специально для усеченного среднего неравенство типа Берри - Эссеена было доказано Ветом |147].
Наконец, в работах Р.Хелмерса [86), [89) были получены оптимальные оценки скорости сходимости к нормальному закону распределений L-статистик общего вида в предположении существования конечного третьего момента у F и при некоторых дополнительных условиях гладкости F и весовой фугкции Z.-статистики. Асимптотические разложения для L-статистик с гладкой весовой функцией были найдены в работах В. ван Цвета [144), [145] и Р.Хелмерса [87), |88), [90]
Следует отмстить, что примерно в эти же 7()-е годы аналогичные задачи решались для класса /7-статистик, оценка оптимального порядка для которых была получена впервые Х.Каллаертом и П.Йансеном (47). Метод, с помощью которого Р.Хелмерс получил неравенство типа Берри Эссеена для L-статистик в [89], состоял в аппроксимации б-статистики V-статистикой второго порядка и последующем применении результата |47] к аппроксимирующей Ц-сгатистике.
В начале 80-х годов стала ясна общая основа, связывающая между собой эти два важных класса статистик и решающая роль разложений Хёфдинга |95). В 1984 году ван Цвет опубликовал работу (146), в которой он получил неравенство типа Берри - Эссеена, опираясь только на свойство симметричности функции, определяющей статистику, независимость и одинаковую распределенность наблюдений. В 1146] были получены два следствия, касающиеся двух частных случаев симметричных статистик: U- и L-статистик. Каждое из этих следствий содержало и даже усиливало лучшие их известных к тому времени результатов |47|, |88), относящихся к этим специальным случаям.
В 1989 году К.Фридрих [70), используя другой медод доказательства,
9
основанный на мартингальной технике, обобщил результат В ван Цвета в двух направлениях: во-первых, он отказался от предположения симметричности статистики; во-вторых, — от предположения одинаковой распределенности наблюдений, предположив лишь независимость, условия моментного типа и в определенном смысле [70] гладкость статистики. Результат К.Фридриха также содержит в качестве следствий оптимальные по порядку оценок результаты, имевшиеся к тому времени для U- L- и Я-статистик (см. примеры в [70]).
Получению асимптотических разложений для распределений широкого класса статистик, допускающих стохастическое разложение, была посвящена работа Д.М.Чибисова |19| 1980 года.
В 1997 году в статье В.Бснткуса и др. [28] была установлена снраведпивость разложения Эджворта при определенных моментных (и некоторых других) ограничениях дчя нормированной симметричной статистики, найдена формула разложения, дана оценка остаточного члена аппроксимации ф.р. сс разложением, имеющая порядок 1/п. В |28] приведены также следствия основного результата для классов (/-статистик, L-статистик с гладкой весовой функцией и для некоторых других симметричных статистик.
В работе Х.Путтера и В. ван Цвета [121] 1998 года найдено разложение типа Эджворта для стьюдентизованной симметричной статистики. Для оценки асимптотической дисперсии симметричной статистики (для стыодентизации) в этой работе использовалась разновидность оценки "складного ножа".
3. О представлении Бахадура - Кифера
Классическое представление Бахадура - Кифера было получено Р.Бахадуром [25] и уточнено Дж.Кифером в серии работ [102]—[104]. Оно позволяет заменить квантильный процесс эмпирическим процессом, умноженным на ( — 1), с Р-п.н. равномерной ошибкой порядка п-1/М+о(1), где п - объем выборки (см., например, (52], [61], (63], [133]).
Представление типа Бахадура - Кифера и некоторые другие связанные с ним представления играют важную роль в построении предлагаемых нами U-
10
статистических аппроксимаций при доказательстве результатов глав 1. 3-4.
Пусть Х\,...,Хп — выборка независимых одинаково распределенных с.в. с ф.р. Р. Обозначим = Р-1(о:) квантиль уровня 0 < а < 1 функции распределения. Р, £апп — соответствующую эмпирическую квантиль. эмпирическую ф.р. Положим Лга — Ц{г: Хг < £а}.
Теорема (Р.Бахадур [25|, 1966). Предположим, что Р имеет по крайней мере, две непрерывные производные в некоторой окрестности £а, причем Р' ограничена в этой окрестности и Р'(£а) = /(&») > 9- Тогда
с с N° - ап , п ( \
€«п„-?а п/(?о) +А.М,
где Лп{и) = Ор.пн (п~3/4(к^п)1/2(к^1ойп)1/4).
Здесь Яг, = Ор.п н (*ч) означает, что Яп/гл ограничено Р-п.н. Очевидно, что (Да - ст)/(п/(£>)) = (Рп{£а) ~ <*)//(£«)• Результат Р.Бахадура был уточнен Дж.Кифером в серии статей |102)-|104] 1967-70-х годов. В частности, Дж.Кифер показал, что в условиях теоремы Бахадура
и. - «с + №.«.) - <*)//«а) _ а)Ч*
= Ж)--------------------------
Р-п.н. при любом выборе знака.
Другой результат этого типа с оценкой остатка по вероятности приведен в монографии Р.Райса |125|. Предположим, что плотность / удовлетворяет условию Липшица в окрестности и /(£«) > 0. Тогда
Чапп = &* “ (^п(&*) “ ^
где Р (1ЯД > Л(1обп/п)3/4) < Вп~с для любого с > 0, где А, В > 0 -постоянные, не зависящие от п.
Обобщения представления Бахадура на случай зависимых наблюдений были получены П.Сеном [127| в 1968 году и В.Ву |148] в 2006 1-оду
В главе 5 мы получаем ряд новых специальных представлений типа Бахадура - Кифера для последовательностей выборочных квантилей уровня ап е (0,1), в том числе, для "хвостовых", когда <*п может стремиться к 0 или 1.
11
Мы получаем не встречавшиеся ранее представления для сумм порядковых статистик, находящихся между' а„-й выборочной и соответствующей генеральной квантилями. Мы доказываем также справедливость представлений Бахадура - Кифера для квантилей бутстрегь выборки.
4. О бутстрспе Эфрона
В последние три десятилетия, начиная с 1979 года, когда была опубликована статья Б.Эфрона [66], в которой он предложил новый метод и его название, бутстрел получил широкое распространение в математической статистике и ее приложениях. В настояжщее время существует обширная литература, посвященная бутстрепу (см., например, монографии и обзоры [23], [31] |67], [80],
. [ *], а также статьи, например, [20]—(24], [30], [36]. |41]-[43|, (64]. [69],
[71]—[72], (75], [79], (81|-[83|, (91Ц93], (120], [126], [134], [139]).
Бутстреп используется дпя определения доверительных областей, оценки дисперсий, коррекции смещений, в многомерном статистическом анализе, для анализа и прогнозирования временных рядов и в других задачах статистики. Опишем кратко суть этого метода, опираясь на работы [36], [66], [134].
Пусть Х\,... ,Хп- выборка независимых одинаково распределенных с.в. из распределения р е Т0, Тп = Тп(Х]}..., Хп) = Тп(Рп\ Р) - случайная величина, которая нас интересует (обычно Тп - статистика), которая симметрична по своим аргументам (т.е. порядок наблюдений не оказывает влияние на значение Тп), Рп - эмпирическая ф.р. Обозначим Ьп - £{Тп) закон распределения Тп и предположим, что Ьп сходится к некоторому невырожденному пределу Ь.
Пусть 0п = 0„(Р) = 7(Ьи) - интересующий нас параметр, который является функционалом от Ьп.
р
Предположим, что вТ1(Р) —► в(Р) для всех Р е Р0. Обычно, если Ьп или /, известно, то 0п(Р) или в(Р) вычисляются непосредственно. Если Ьп неизвестно, а Ь известно, то 0п(Р) оценивается посредством 0(Р). Заметим, что даже если Ьп и Ь известны, они могут зависеть от Р, которое неизвестно.
Идея бутстрепа состоит в следующем. Пусть Ри — некоторая оценка Р (если
12
12372329
Рп = Р«, Т.е. эмпирическая ф.р., то мы получаем неиараметрический бутстреп, если Р„ получено подстановкой в известную формулу Р оценок ее неизвестных параметров (в параметрической модели), то получаем параметрический бутстреп; возможно также получение оценки путем сглаживания эмпирической ф.р. Рт, и т.д.). Эфрон [бб| предложил оценивать 0,{(Р) подстановкой Рп вместо Р, то есть оценивать 0П(Р) посредством в = #„(РП)- Заметим, что Рп не обязательно принадлежит множеству /і), которое может включать в себя, например, только непрерывные функции, тогда, скажем, Р„ = Гп не будет в него входить. Мы предположили, ЧТО 0Г,(Р) —> 0(Р) ДЛЯ всех Р Є Ро
Л р
Говорят, что бутстреп "работает"(корректен), если 0п(Рп) —* #(Р) для всех Р € Ро (множество примеров корректности бутстрепа и ее отсутствия можно найти, например, в [20|-[24|. [Зб], [140]). Однако даже если в(Р) не определено, может иметь смысл вопрос, является ли 0п{Рп) близким к 6>П(Р).
Для оценивания 0п(Р) с использованием бутстрепа (когда бутстреп-выборки производятся с повторением значений) нужно выполнить следующие шаги:
1. Оценить Р посредством Рп.
2. При дайной функции Р„ произвести повторную выборку (с возвращением) размера т: Х^,...,Х)п — независимые (условно при условии Рп) одинаково распределенные с.в. с ф.р. Рп.
3. Вычислить Т;п = Тт{Х{}..., Х^\ Рп) .
4- Оценить распределение Ь(Тп\Х\,..., Хп\ Р) посредством распределения «м. = Ь(7І) = Ь(Тт(ХГ,.. -, Х;4; Рп) | Р„) (см. ниже).
5. Оценить 0п = 9п(Р) = т(Гп) посредством 0'1п = 9т{Рп) = 7 (£*„,*) .
Для выполнения и.4 (те. нахождения распределения) возможен т.н. "идеальный бутстреп". Действительно, бутстреп-ф.р., очевидно, равна
- Ш т
т; зо- пс < «I£» - £ ■ ■ • £ * (г-м......*«) £ О-
*1=1 1т=1
Однако этот способ уже при средних значениях п требует огромного объема вычислений и трудно реализуем. Второй способ, который обычно и применяют на практике, состоит в использовании метода Монте-Карло. Для оценки
13
P*{T^ < t) производится В повторных выборок размера тп из Fnt для каждой выборки вычисляется значение статистики Т'п> в результате чего получаем выборку объема В. Распределение L*lfJ оценивается посредством
эмпирического распределения, соответствующею выборке T*nt, i = 1,..., В.
Необходимым условием корректности бутстрепа для 0п = 0n(F) является корректность аппроксимации ф.р. Р(Тп < t) посредством Р*(Т^ < t).
Одной из наиболее привлекательных сторон бутстрепа является то, что аппроксимация распределения Ln статистики Тп ее бутстрен-распределением Ь'пп оказывается зачастую на порядок точнее, чем аппроксимация предельным распределением L, если таковое имеется. Этому свойству, называемому корректностью второго порядка, посвящена значительная часть литературы по бутстрепу. Примеры, в которых реализуется это свойство, можно найти, например, в [23], [24], [31), [80|, [134). Причина, по которой это происходит, объяснена, например, в монографии П.Холла [80]. Краткое объяснение этому состоит в следующем: в ситуации, когда ф.р. Тп допускает асимптотическое разложение в "реальном мире"1 (как правило, вблизи нормальной ф.р., т.е. это разложение Эджворта), для ф.р. бутстреп-версии статистики также справедливо асимптотическое разложение в "бутстреп-мире", может быть при несколько более жестких ограничениях. Слагаемые этого разложения, как правило, идентичны разложению в "реальном мире", в котором все зависящие от F величины заменены их эмпирическими вариантами (т.е. оценками подстановки Fn). Таким образом, в силу состоятельности оценок подстановки и в условиях действия (усиленного) закона больших чисел для моментных параметров разложений функции распределения Р(Т„ < I) и Р*(Т*п < t) оказываются на порядок ближе друг к другу, чем каждая из них к предельной ф.р. (первому слагаемому разложения, т.е. Ф(.т) - стандартной нормальной ф.р. - в случае; асимптотической нормальности).
Свойству корректности второго порядка для усеченного среднего посвящена
1 Термины "реальный мир" — real world — и "бутстреп-мир" — bootstrap world — были предложены Ж.Сшшепулом (см. [139|-(140]).
14
глава 4 диссертации.
Другой полезной и интересной чертой бутстрепа является его чрезвычайная гибкость и адаптивность. В оригинальной статье Б.Эфрона [(56) предлагалось применять метод при т = п, впоследствии этот вариант был назван 4простым" бутстрепом (т Ф n-бутстреп впервые появился в работе [36]), и именно такой выбор является наилучшим, если иметь в виду свойство корректности второго порядка, так как ведущие члены разложений Эджворта порядка п'1/2 (в реальном мире) и т~1/2 (в бутстреп-мире) при этом выборе оказываются ближе всего друг к другу. Однако, если бутстреп не состоятелен (в этом случае о корректности второго порядка говорить не приходится), то его все же можно заставить корректно работать, если использовать т ф n-бутстреп ("тп out of п bootstrap"(40| в англоязычной литературе), когда т = о(п). т —► оо. Если выборочное пространство "вычерпывается" в большем на порядок объеме, чем выбирается из него бутстреп-выборка, то такие свойства распределения Тп, которые не может "заметить" простой бутстреп, когда (т = п), что приводит к его некорректности, улавливает модифицированный га -С н-бутстреп (тп — o(n), тп —> оо), что делает его корректным, например, для распределений экстремумов выборки и рекордов (см., например, [7], |63|). Это свойство тп < п-бутстрсиа для случая выбора без повторений было обнаружено Ф.Гётце [74] и изучалось Дж.Политисом и Дж.Романо [118] (см. также [119]). В случае, когда бутстреп-выборка производится с повторением, данный эффект тп «С п-бутстрепа изучался Ж.Сванеиулом [139], П.Деовельсом и др. [64], П.Деовельсом и В.Б.Невзоровым |7]. П.Бикелом Ф.Гётце и В. ван Цветом [38], П.Бикелом и Дж.Реном [40], П.Бикелом и А.Саков [42], Ф.Гётце и др. [75].
В главе 2 диссертации мы приводим и изучаем еще один пример того, как модифицированный тп < n-бутстреп корректно аппроксимирует распределение статистики в ситуации, когда простой бутстреп не корректен. Это пример усеченного среднего.
15
5. Структура и краткое содержание работы
Основные результаты диссертации изложены в главах 1-7, которые разделены на параграфы, каждая из глав снабжена коротким введением. Нумерация утверждений отдельная для каждого типа утверждений в каждой главе. Нумерация формул тройная и указывает номер главы, номер параграфа и номер формулы в параграфе.
В главе 1 изучается асимптотика второго порядка распределений усеченных сумм вида
где /сТ1, Шп - целочисленные последовательности, 1 < къ < ч-тп < п. такие, что к„/\тп —» оо. В этой главе приведены результаты, касающиеся оценок скорости сходимости в центральной предельной теореме и разложений типа разложения Эджворта для ф.р. нормированной и стыодентизовалной статистики Тн, в том числе, в случае слегка усеченной суммы, когда (Агп V пг^/п —» 0.
Основные результаты этой главы не требуют каких-либо момеитиых
предположений, в получаемых из них следствиях мы акцентируем внимание
па наиболее интересном для нас случае, когда исходное распределение имеет
тяжелые хвосты, подразумевая под этим отсутствие конечной дисперсии у
исходного распределения. Наши оценки скорости сходимости при определенных
условиях регулярности имеют порядок Г,71/2, где тп = кпЛт-п, и мы доказываем.
что если ЕХ| = ос, то этот порядок является неулучшаемым. Для этого мы
рассматриваем случай, когда имеет правильно меняющуюся плотность / на
бесконечности, и показываем, что (при отсутствии симметрии распределения
Е и равенства правой и левой долей усечения) точным порядком главного
— 1 /2 — 1 /2
слагаемого разложения Эджворта является кп + тпп
Если вопросы, относящиеся к асимптотике первого порядка для усеченных сумм (то есть класс возможных предельных законов, условия сходимости к ним, необходимые и достаточные условия асимптотической нормальности и т.д.) были изучены ранее достаточно полно в работах Ш.Чёргё и др. (55],
I тп
16
П.Гриффина и В.Пруитта [77) и др. (см. п. 1, выше), то до недавнего времени имелось совсем мало работ, посвященных уточнениям. Фак тически нам известна только одна работа В.А.Егорова и В.Б.Невзорова [8|, опубликованная в 1974 году, в которой получены некоторые оценки скорости сходимости к нормальному закону для усеченных сумм в общей ситуации, когда доли отсекаемых но краям наблюдений являются последовательностями. В [8] при несколько более жестких, чем у нас, ограничениях были получены оценки порядка (1о£ г„/гп)1/2.
Асимптотические разложения типа разложения Эджворта, представленные в главе 1, получены в нашей работе впервые. Мы даем оценки остаточного члена аппроксимации распределения нормированной (и стьюдентизованной) статистики Тп ее асимптотическим разложением, которые при определенных условиях регулярности имеют порядок кйл, '\\о£ к„)5/ 4+тп»4 (к^ тп)',,1л (то есть порядок остаточного члена в представлении Бахадура: (—3/4), но не в терминах степени п, а в терминах соответствующих степеней кТ1 и тгц,).
Метод доказательства основных результатов главы 1 базируется на стохастической (/-статистической аппроксимации Тп. Мы оцениваем должным образом погрешность этой аппроксимации и применяем соответствующего типа известные результаты к аппроксимирующей {/-статистике. Хотя метод V-статистической аппроксимации хорошо известен в литературе и применялся во многих работах (см., например, |89|, |90|, [121]), предлагаемая здесь аппроксимация является оригинальной, она отличается от обычно исользуемого в таких случаях приближения первыми даумя группами слагаемых (линейным и квадратичным) разложения Хсфдинга. Линейный член нашей аппроксимации -сумма независимых одинаково распределенных уинсоризованных вне интервала [£«„>(1-/0 с-в-1 гДе £>о,п, ^1-д, - квантили, соответствующие усекающим процентилям ап = А^/п, @п = т^/п, квадратичный член аппроксимации связан с представлением типа Бахадура - Кифера для сумм порядковых статистик, находящихся между квантилями уровней аП) 1 — /?п и соответствующими им выбо1>очными квантилями (см. п. 5.2).
17
В главе 2 изучается корректность бутстреп-аппроксимации распределения усеченного среднего. Мы доказываем, что т п-бутстреп-аипроксимация (где п - объем исходной выборки, т - объем бутстреп-выборки) является состоятельной без каких-либо предположений относительно исходного распределения F. В то же время классический бутстреп Эфрона (случай т = п) и нормальная аппроксимация не состоятельны, если имеются промежутки ненулевой длины, имеющие меру нуль, такие, что их границами являются квантили, в которых происходит усечение. Попутно мы даем другое, более простое и естественное, доказательство классического результата С.Стиглера [136] о предельном распределении усеченного среднего, основанное на аппроксимации суммой независимых одинаково распределенных уинсоризованных с.в. Результаты главы 2 сопровождаются численным моделированием, которое иллюсгрир.ует наши теоретические выводы.
Глава 3 посвящена получению разложений типа Эджворта и эмпирических разложений тина Эджворта для нормированного и для стьюдентизованнш'о усеченного среднего. Результаты этой главы связаны со статьями II.Холла и Л.Падманабхана [83], а также Х.Путтсра и В.ваи Цвета [121). В статье П.Холла и Л.Падманабхана [83| авторы указывали на сложность получения явных формул разложения Эджворта для ф.р. не только стьюдентизованного, но и нормированного усеченного среднего, они высказали предположение, что эти формулы, по-видимому, должны зависеть от значений плотности в точках, где происходит усечение, и предлагали "заменить аналитические трудности бутстреп-моделированием" |83|. В данной работе мы все же получаем явный вид формул асимптотических разложений для этой статистики и ее стыодентизованной версии.
В главе 3 представлены результаты, полученные в совместных работах с Р.Хелмерсом |1Г>7]-[158|, в которых мы находим простые явные формулы разложений Эджворта для ф.р. нормированного и ф.р. стьюдентизованного усеченного среднего, которые, действительно, зависят от значений плотности в точках, где происходит усечение. Следует заметить, что часть результатов
18
главы 3, в принципе, содержится в более общих результатах главы 1, однако у усеченного среднего из-за нормировки множителем (п - [ад] -\pn\Y1 (а, (3 — фиксированные доли усечения 0<а<1-/?<1) и из-за возможного наличия дробных частей у ап и (Зп (см. главу 3), асимптотическое смещение и, следовательно, разложение Эджворта зависят от этих дробных частей, мы вычисляем асимптотическое смещение в п. 3.3. Учитывая эти нюансы и прикладное значение усеченного среднего, мы отдельно рассмотрели этот случай, предпочитая дать в случае усеченного среднего независимое доказательство, тем более, что используемые при этом рассуждения оказываются полезными далее в главе 4, посвященной бутстрепу.
Оценки остаточных членов аппроксимации ф.р. разложениями Эджворта в случае усеченного среднего имеют классический бахадуровский порядок п~3/4(^п)5/'4, порядок остатка связан с применением СЛстатистичеокой стохастической аппроксимации, использующей представление Бахадура.
Кроме того, в главе 3 мы получаем эмпирические разложения Эджворта. Для этого все неизвестные величины, входящие в формулы разложений Эджворта, заменяются их статистическими оценками. Мы используем для оценки параметров момеитиого типа оценки подстановки эмпирической ф.р., а для оценки значений плотности распределения /, присутствующих в разложениях, простые ядерные оценки со ступенчатым ядром, порядок состоятельности которых оценивается в пп. 3.5.3.
В п. 3.6 главы 3 мы соотносим наши результаты с результатами Х.Путтсра и В. ван Цвета |121| для симметричных статистик. Мы доказываем, что наши результаты, касающиеся разложения Эджворта для (стыодентизованного) усеченного среднего, нс могут быть выведены в качестве следствий очень общего результата статьи [121] (теоремы 1.2), поскольку по крайней мере одно из условий [121] не может быть выполнено в случае такой "негладкой” статистики, как усеченное среднее, кокой бы гладкой ни была ф.р. в окрестности квантилей, где происходит усечение.
В главе 4 изучается корректность второго порядка т ф п-бутстреп-
19
аппроксимации распределения усеченного среднего. Прежде всего, мы доказываем справедливость разложений Эджворта для бутстреи-версий ф.р. нормированного и стьюдентизованиого усеченного среднего и даем явные формулы разложений в предположении, что плотность / удовлетворяет равномерному условию Гсльдера некоторого порядка 0 < а < 1 в окрестности квантилей, где происходит усечение, и что га = О (гай) для некоторого 0 < в. < 2, когда т —* оо. Оценки точности аппроксимации ф.р. разложениями даются в терминах а и <1. Доказательства также основаны на //-статистического тина аппроксимации, но теперь в "бутстреп-мире".
Используя разложения Эджворта, полученные в главе 3, и их бутстреп-версии, найденные в главе 4, мы доказываем корректность второго порядка бутстреп-апироксимации ф.р. усеченного среднего при условии, что га = п + 0(пг), где г < 1, и даем оценку погрешности в терминах а и г, приведены также следствия для случая простого бутстрепа, когда га = п. Корректность второго порядка бутстрепа для усеченного среднего была доказана также в |83]. Доказательство в |83) в базировалось только на факте существования разложения Эджворта и не использовало явных формул, которые не были известны авторам. Однако в [83] рассматривался только случай т = п, причем при более жестких ограничениях гладкости, налагаемых на ф.р. F.
В разделе 4.3 исследуется корректность га < п-бутстрепа в сочетании с экстраполяцией Бикела - Яховы (о бутстреп-экстраполяции см., например, [43], [41|). Мы доказываем для случая усеченного среднего, что экстраполяция позволяет получить корректность второго порядка за сокращенное время вычислений. Результаты главы 4 сопровождаются моделированием, которое иллюстрирует теоретические вывода.
Одним из основных выводов главы 4 является также тот факт, что корректность второго порядка связана со способом определения усеченного среднего. Так, мы доказываем, что определение усеченного среднего Тп 1~а~р /о ^ Г;1 (и) (1и, 0 < а < 1 - ,3 < 1, ^ — эмпирическая ф.р., является более подходящим в контексте бутстрепа, чем усеченное среднее вида Тп =
20
]СГ«(оп)+1 ^in» и 4X0 11РИ ВТ°Р°М способе задания для достижения корректности второго порядка т Ф п—бутстрепа требуется дополнительная коррекция смещения при центрировании.
Глава 5 касается представлений типа Вахадура - Кис]х;ра. Как уже отмечалось, представления дня выборочной квантили и для сумм порядковых статистик, расположенных между генеральной и соответствующей выборочной квантилями, составляют основу нашей (/-статистической аппроксимации.
В разделе 5.1 мы получаем представления для квантилей фиксированного уровня 0 < ос < 1 при более мягких предположениях гладкости плотности / в окрестности квантили, чем в работах [25], |102)-(104]. Мы оцениваем остаточные члены представлений по вероятности, так как именно этот тип оценки остаточного члена необходим, когда мы применяем эти результаты для аппроксимации ф.р. изучаемых статистик. Леммы этого параграфа применяются при доказательстве результатов главы 3.
В разделе 5.2 мы получаем соответствующие представления в случае, когда уровень квантили зависит от п, т.е. является последовательностью 0 < а„ < 1, которая, в частности, может стремиться к 0 (или к 1), последнее соответствует случаю "хвостовых" (точнее, "intermediate" ,англ.) квантилей. Представления типа Бахадура - Кифера для хвостовых квантилей, полученные в п. 5.2, являются новыми. Они применяются при доказательстве результатов главы 1.
В разделе 5.3 мы доказываем справедливость представлений типа Бахадура - Кифера ”в бутстреи-мире" (т.е. для бутстрепированных квантилей). Иными словами, мы получаем бутстреп-версии лемм раздела 5.1. Эти бутстреп-версии получены в данной работе впервые. Они используются при доказательстве результатов главы 4.
В главе 6 рассматриваются линейные комбинации порядковых статистик. Результаты этой главы связаны с работой В. вал Цвета |14б). Мы получаем иную, чем в [14б|, оценку абсолютного третьего момента L2—проекции L-статистики, что позволяет получить для //-статистик ряд новых полезных следствий основной теоремы В. ван Цвета [ 14б|. Так, в частности, в главе G
21
неравенства типа Берри - Эссеена для /.-статистик доказываются при более слабых моментных ограничениях, чем ь 1146), тяжесть условий переносится с ф.р. И на веса /^статистики, относительно которых предполагается гладкость и убывание к нулю на краях комбинации. Рассмотрен случай усеченной на уровне центральных квантилей /.-статистики и случай, когда отброшено лишь фиксированное число крайних членов вариационного ряда.
В качестве вспомогательных результатов в п. 6.5 мы получаем оценки абсолютных к-х моментов порядковых статистик посредством абсолютных моментов порядка Л > 0 исходного распределения, в том числе, в наиболее интересном случае, когда к > 6.
Глава 7 посвящена исследованию корректности бутстреп-аппроксимации распределений ^-статистик. Изучается состоятельность бутстрепа в случае, когда веса //-статистики определяются при помощи весовой функции J(u)} и € (0,1), но формулам: (г) с,>п = или (гг) с.,п = /^1)/пд(и)ди,
i = Показано, что второй способ имеет некоторое преимущество в
контексте бутстрепа, поскольку корректность т ф п—бутстрепа достигается в этом случае при несколько более мягких условиях.
6. Публикации и апробация работы
По теме диссертации опубликовано 33 работы, из которых 11 - это статьи в журналах и изданиях, рекомендованных ВАК. Публикации по теме диссертации перечислены в конце списка литературы. Работы (149]—[164) - это статьи в периодических журналах и других изданиях, (165]-(181] - тезисы докладов в сборниках конференций.
Результаты диссертации докладывались на следующих симпозиумах и конференциях:
о Ц-15 и 29-й Международные семинары по проблемам устойчивости стохастических моделей, Суздаль, 1991 г., Пермь, 1992 г., Светлогорск, 2011 г. о Международная конференция "Асимптотические методы в теории веро-
22