Связь гессиана и матрицы вкладов в градиент с информационной матрицей
Покажем, какая связь существует между информационной матрицей и гессианом. Сделаем это только в случае непрерывного распределения. Тот же метод доказательства очевидным образом распространяется на дискретные распределения.
Применяя правило дифференцирования логарифма к логарифмической функции правдоподобия, получим следующее тождество:dl — і дЛ dO — Л dO
Продифференцируем по OT:
d2l 1 д2Л 1 Л Л
dOdOT Л dOdOT Л2 dOT dO
Отсюда, опять воспользовавшись правилом дифференцирования логарифма, получим
Н —
d2l 1 д2Л l l
dOdOJ Л dOdOJ dOJ dO
Найдем теперь ожидание обеих частей в точке O0 (при истинных параметрах распределения):
d2l
E (Н(Ю)) —E (OO(O0))
0
2
_ j f(O Y) 1 d^(O0;Y) _ ДМO _ yAO°,y)л^У) dOdOJ dY- E( dOJ dO ).
Второй член разности есть по определению информационная матрица
I(O0). Интеграл равен нулю при условии, что операции интегрирования и
дифференцирования перестановочны (для этого достаточно, в частности, чтобы пространство зависимой переменной У не зависело от в или плотность распределения по краям У была стремилась к нулю):
d d2
OO j дад dF—OO 1 —
Таким образом, используя для краткости обозначения H(F,O0) — Н0 и
I(O0) — 20,
- E (Н0) — I0
— информационная матрица равна математическому ожиданию гессиана функции правдоподобия со знаком минус. То же самое свойство верно асим
птотически (опять обозначаем I ^(O0) — ij0):
Матрица вкладов в градиент и информационная матрица
Прежде всего докажем, что математическое ожидание градиента в точке
2
O0 равно нулю (E g (F,O0) — 0):
dl
E g (F,O0) — j g(F,O0) ЛУМ dY — j ^FA) Л(УЛ) dF _ 1 дЛ , дЛ
j aFO) Ю (F,O0) Л(у,°0) dF—j M (F,O0) dF=
dd — gO! AW dF— O — 0.
Как уже говорилось, функцию правдоподобия можно разбить по вкладам отдельных наблюдений: l(F,O) — Z lj(Yj,O). То же самое можно проделать с градиентом.
Определим матрицу вкладов в градиент отдельных наблюдений G какdl-
Gj(O) — dO (O).
dlj d dl При этом Z-Gjj — щ = ~Opili— щ = g j.
Используя рассуждения, аналогичные приведенным выше, можно показать, что E Gij(Y,0 o) = o.
Мы так разделили функцию правдоподобия на вклады отдельных наблюдений, что E(Gi(Y,0o) Gs(Y,6o)J) = o, где Gl(Y,6o) и Gs(Y,6o) — строки матрицы Go = G(Y,6o), относящиеся к разным наблюдениям i и s. (Поскольку элементы матрицы Go имеют нулевое математическое ожидание, то это означает что строки матрицы Go, относящиеся к разным наблюдениям, некорре- лированы.) Докажем это свойство.
Функция правдоподобия i-го наблюдения по определению есть плотность распределения Yi (в случае непрерывного распределения) условная по информации, содержащейся в наблюдениях 1, ..., i - 1 (условная по Y1, ..., Yi-1
). Обозначим это информационное множество Qi. Будем вычислять математическое ожидание по частям — сначала условное, а потом от него безусловное (правило полного мат. ожидания). Предположим, что i < s. Тогда E (G(Y,0o) Gs(Y,0o)J) = E (E (ВДво) Gs(F,^o)TPi)) = = E (Gi(F,0o) E (Gs(F,^o)TPi)) = o.
Равенство E (Gs(Y,0o)\' j^i) = o доказывается в точности по той же схеме, что и доказанное выше E g(Y,6o) = o. Используя это свойство, получим
E(GoTGo) = E( I Go iTGo i) = E(( Z Go i)T( I Go )) = E(go goT).
i i i
Последнее выражение есть по определению информационная матрица. Таким образом,
E(GqTGQ) = І O.
…