Базовые понятия
как:
а) P*(*) (вероятность) — в случае дискретного распределения.
б) рв(х) (плотность) — в случае непрерывного распределения.
Здесь Pe(x) (рв(х)) характеризует семейство распределений задаваемое
m
параметром в є ©, ©с Р — пространство параметров.
В эконометрии принято говорить об этом семействе распределений как о порождающем данные процессе (ПДП). Будем считать, что рассматриваемый вектор наблюдений (выборка) порожден распределением из этого семейства с параметром в0 є ©, которое будем называть истинным распределением, а в0 — истинным параметром.Функция C(Y,0) = Pe(Y) (соответственно C(Y,0) = pe(Y)) называется функцией правдоподобия.
Оценкой максимального правдоподобия (в) , сокращенно оценкой МП, называется решение задачи
C(Y,e) ^ тахвє © .
Будем считать в дальнейшем, что решение задачи единственно.
Такой метод оценивания называют методом максимального правдоподобия.
Обычно удобнее пользоваться логарифмической функцией максимального правдоподобия
?(?,в) = ln(?(Y,e)).
Логарифм — (бесконечно) дифференцируемая возрастающая функция: поэтому можно находить оценки МП решая задачу i(Y,9) ^ тахвє © .
В частном случае вектор наблюдений представляет собой выборку независимых одинаково распределенных случайных величин: Yi ~IID, і = 1,..., N. При этом
AY, в) = П Л(Хі,в), 1( Y,e) = I ад,в).
ii
Вообще говоря вектор наблюдений Y состоит из зависимых между собой и/или неодинаково распределенных случайных величин, поэтому не является
выборкой в обычном смысле слова. В общем случае это равенство тоже будет верным если обозначить
UYuO) = p0(Yl \\Y-i,...,Y\\) и 1(Y,O) = ln(C(Y,O)).
Тем самым задается разбиение функции правдоподобия на вклады отдельных наблюдений.
Поскольку Y — случайная величина, то функция правдоподобия — случайная величина при данном значении параметров.
Оценка максимальногоправдоподобия является функцией вектора наблюдений: O =O(Y), поэтому это тоже случайная величина. Соответственно, точно так же случайными величинами является значение функции правдоподобия в максимуме C(Y) =
C(Y,O) и многие другие рассматриваемые далее величины (градиент, гессиан и т. п.).
Пусть функция правдоподобия дифференцируема по O и достигает максимума во внутренней точке (O є int(©) ), тогда оценка МП O должна удовлетворять следующему условию первого порядка:
дЛ д1
O,O) = 0 или —(Y,O) = 0.
Таким образом, градиент логарифмической функции правдоподобия g(O)
при O= O должен быть равен нулю.
Для того, чтобы оценки, удовлетворяющие этим уравнениям правдоподобия действительно давали максимум правдоподобия, необходимо и достаточно, чтобы были выполнены условия второго порядка (предполагаем, что функция правдоподобия дважды дифференцируема). А именно, матрица Гессе (гессиан) логарифмической функции правдоподобия должна быть всюду отрицательно определена. Далее мы встретим случаи, когда это свойство действительно выполнено (логит и пробит), и когда может быть несколько локальных максимумов ("полная" функция правдоподобия для регрессии с ЛЯ(1)-ошибкой). Матрица Гессе Н по определению есть матрица вторых производных:
д21
Hl(Y,O) = OO(Y,O) j, l = 1,..., m.
С помощью матричного дифференцирования можно записать гессиан в виде
Н = д21 п двдвт
В некоторых моделях функция правдоподобия неограничена сверху и не существует оценок максимального правдоподобия в смысле приведенного выше определения. Согласно альтернативному определению оценками максимального правдоподобия называют корни уравнения правдоподобия, являющиеся локальными максимумами функции правдоподобия, корнями уравнения правдоподобия. Существуют модели, для которых такие оценки состоятельны.
Информационной матрицей для вектора наблюдений размерностью N будем называть матрицу
і\\в) = Ев (g(Y,e) gT( Y,e)).
Заметим, что по этому определению информационная матрица — функция некоторого вектора параметров вє ©.
В дальнейшем для сокращения записи, если это не вносит путаницы, индекс количества наблюдений N будем опускать: І (в). Индекс в у символа математического ожидания Е означает, что ожидание вычисляется в предположении, что в — точка истинных параметров. Заметьте, что оператор Е без нижнего индекса везде означает ожидание для распределения с параметрами во!В дальнейшем будет использоваться следующее очевидное свойство функции правдоподобия. Пусть ф (Y) есть некоторая функция вектора наблюдений Y. Тогда ее математическое ожидание равно
Е(ф (Y)) = J ф (Y) Л(во,У) dY,
У
где Уобозначает пространство элементарных событий (пространство переменной Y).
Таким образом, можно переписать определение информационной матрицы в виде
І (в) = J g(Y^) gT(Y,в) С(вХ) dY.
У
Асимптотическая информационная матрица есть предел
І "(в) = limN ^ N JN(в).
Множитель 1/n добавлен в определения для того, чтобы существовал конечный предел (информационная матрица является величиной порядка O(N)).
Если мы рассматриваем выборку, то применяя определение информаци-онной матрицы к отдельным наблюдениям (Іі ), имеем ІN = N Іі .
Таким образом, если наблюдения независимы и одинаково распределены, то информация растет пропорционально количеству наблюдений.
Пример. Линейная регрессия с нормально распределенными ошибками. Пусть ошибки є І ~ NID(0,o ). Эта аббревиатура означает, что случайные величины єі независимы и имеют нормальное распределение с параметрами (0,а ) (normally and independently distributed). Ковариационная матрица вектора ошибок — это единичная матрица с точностью до множителя: Е(єєт) = а
2 Т IN.
Зависимая переменная связана с ошибками следующим образом: Y=X0+ є,
где X — матрица регрессоров (Nxm), в— вектор-столбец неизвестных коэффициентов длины m. Таким образом, Yi имеет нормальное распределение с параметрами (Xi в, а ), где Xi — і-я строка матрицы X:
Yi ~ N(Xi в, а2).
Плотность распределения N(a,o ) равна
2
p(x)=v2nor exp(- ).
Функция правдоподобия для этого набора наблюдений имеет вид
N2
(Yi - X, в)2
Л = (2па2)- N/2 П exp(- ).
і = 1
Логарифмическая функция правдоподобия:
N 2 і N 2
1 = - 2 ln(2na ) - 202 I (Yi - Xi в)2 =
i =1
N 2 1 T N 2 1 T
- у ln(2na ) - 202 (Y - X$T( Y - X0) = - у ln(2n а2) - 2o eTe.
Здесь мы обозначили вектор остатков e = Y - Xв.
В данном случае вектор неизвестных параметров состоит из двух компонент:
f
O
в
2
W )
Градиент логарифмической функции правдоподобия тоже состоит из двух частей:
ge=# = W XT(Y - хв_W XV
dl N eTe 1
gw2=W=- 2W+2W = 2W ( RSSe) - Nct2),
где RSS(e) = eTe — сумма квадратов остатков.
Оценка максимального правдоподобия O должна удовлетворять равенству g( O) = 0, откуда получим
в= (XTX)-1XTY и W — ^^ = N (Y-X&(Y-хв).
ММП дает ту же оценку вектора коэффициентов регрессии Д что и МНК.
Как известно, оценка дисперсии W является смещенной:W 2) N - m 2 E(W ) _ N W .
Покажем, каким образом связаны ММП и МНК. Выразим, используя равенство g 2 — 0, дисперсию через в
2(в) RSS(e
W в = N .
Если подставить ее в функцию правдоподобия, то получится концентрированная функция правдоподобия:
1c — - 2 ln(2n w2(в) - RSS(e) — - N ln(2n RSNe)) - 2 .
Максимизация ее эквивалентна минимизации суммы квадратов остатков RSS(e) по Д.
Гессиан логарифмической функции правжоподобия состоит из следующих компонент:
д21 1 „ т„ _ д21 1 Tl
Нвв = дрдв _ - W 2 X X Нв 2 = двда2 " - W 4 e X
Н д21 _ X X т Н Л_ Л
Hw2e— дw2 двт _ - W4 X e HW2W2 = W _ 2W4 " W6 .
В точке истинных параметров e = е. Используя это, получим, что компоненты информационной матрицы, вычисленной в точке истинных параметров равны:
j j j
1
о
j
1/вОо) = E(ge(0o)ge(0o)T) = E(JJ4 X JeeJX ) = = Л X TE(eeT)X = s j2XT IX = s X TX,
VW = E(gj2(0o)g/(eo)T) = E(jj6 (eTe- NJ2)eTX ) = 0T,
Ij20(6o) = 0 (аналогично),
XJ2J2(0O) = E(gj2(^o)2) = E(( (eTe- NJ2 )2)
1 1 2 1 — E( (eTe)2) - 2 N -rs E(eTe) + N—
S (lE(2) +ЕЩ2Й)) - 2 N ( EE(e2) + N2 tJ
4 ( (Z.E(^ i) &s)) - 2 N 4j6 i) + N 4 (4
i i^s i
1 1 2 1 2 1 1
— 3 Nj4 + j (N- N)J4 - 2 N4S6 NJ2 + N ^ = N ^4.
j 4j v 7 4j 4j 2j
В данном случае Z — блочно-диагональная матрица по параметрам в и J2. В дальнейшем мы рассмотрим, какие полезные свойства из этого вытекают.