Тест на нормальность
Плотность распределения (с нулевым мат. ожиданием) из пирсоновского семейства задается экспонентой функции
. Є c1 - t ,
^(Є, с) = 1 с/ - C1t + Co dt.
Поскольку интеграл плотности распределения должен быть равен 1, то эту функцию следует пронормировать:
exp у(ц)
Рє(и) = +ж .
j exp y(t) dt
—ж
Нулевая гипотеза ("нормальность") заключается в том, что ошибки в линейной регрессии Y по X распределены нормально. Нормальное распределение является пирсоновским распределением с параметрами с1 = 0, с2 = 0: Ho: C1 = 0, C2 = 0 ^ Є~ N(0, со) (при Co = а ) .
Логарифмическая функция правдоподобия есть логарифм плотности распределения. Для i-го наблюдения:
+ж
li = y(Yi - Xi в) - ln j exp y(t) dt.
-ж
Найдем вклад в градиент i-го наблюдения при выполнении нулевой гипотезы.
^ = — ^ X = — 2C1 - gi X
дв дє 1 C2 et - C1 ЄІ + C0 ^
H = Є Xi = —2єіХі.
H0 C0 а
д?1 дв
Производные по параметрам ск пирсоновского распределения равны
j-^ exp y(t) dt
dli 8w °Ck 8w d y(t) /41
~ =dck - і Pє(t)dt =
dCk
d Ck d Ck
-да
j exp y(t) dt
-от
(k = 0, 1, 2).
J1 -E(T^)
dCk dCk
Чтобы их вычислить, нужно вычислить производные функции у(.) по ck (k = 0, 1, 2). Достаточно найти их при нулевой гипотезе:
d у(м)
dc0
d у(м)
dC1
d у(м)
dC2
м
4.
1 м = —2 j tdt =
H0 C0
2a
м
м
1 м 1 м
= — j dt - —2 j t2 dt =
n ГГ, •> J
4.
H0 C0 C0 a2 3a
м
1 м
H = -T j t3dt =
4 a
H0 C0
Математические ожидания этих производных как функций от є равны
d у(є)
dC0
d у(є)
1
E( E( E(
2
2,
H
2a
3
,) = ) =
H ) = E(4 - a) = 0,
dC1
d у(є)
dC1
H0 a 3a
є 3
H
,) = E(4a) = 4.
Подставим найденные выражения в градиент логарифмической функции правдоподобия, введя обозначение ЄІ = є/a
G0 = Лі.
H0 2a
G - d C0
G1 = Ш±
H
a 3a 31
0a
G0 i d C1
He 4a4 4 4
G2 = G0, d C2
В тех же обозначениях
— / 2 24 1 /~2 14 4 (є,- - a ) = 2a2^i - 1),
3
1
3a4 = Зо(ЗЄ - Є,),
4
Є 3 1 /~4 тч
-4 - 4 = 4(Є - 3).
H = ^ЄіХІ. H0 a
GP = dli G0 і dp
Найдем информационную матрицу, учитывая, что моменты стандартного нормального распределения (n ~ N(0,1)) равны
\' 0
k Ik — нечетное E(n ) = I 1-3-...-(k- 1) , .
k — четноеE(n4) = 3, E(n 6) = 15, E(n 8) = 105. Информационная матрица для i-го наблюдения:
^тФ=а?х>х ^=а ХТХІ.
Е(р0 і Gfi) = E(G0 О?) =
E(G1 рв) = за (3E ЄЄ - E Є 4)Х, = О (3 - 3)Xi = 0T,
4,
1-а 4 \' 2а
-0 ч л Т-/А-1 ^2
E((G0 і)2)=а(ЕЄ - 2ЕЄ/ + 1)=404 (3 - 2 + 1) = 2
Е(р0 і р0 І) = 0 Е(р0 І р0 І) = 0
1
1
2
E(P1 І)2) = 90І (E^6 - 6ЕЄ4 + 9БЄГ2) = О (15 - 6-3 + 9) = 3^, E(G0 р2 і) = О(EЄЄ - EЄЄ - 3EЄ2 + 3) =
1
3
2.
8 а
а
• (15 - 3 - 3 + 3) = -
E((G-,.)) = ^ (Eg8 - 6ЕЄ4 + 9) = ^ (105 - 6-3 + 9) = 6.
Просуммируем по всем наблюдениям и составим блок информационной матрицы, относящийся к c. Поскольку информационная матрица блочно- диагональная между c и в, то для нахождения интересующей нас статистики достаточно этого блока:
1 3
1 4 0 ~ 2 2а „ 2а
0
0
2
-> - 3а
I = N
3
0 6
о -
_ 2а
сс
Обратная матрица:
8 a 0
-1
3 2 2a
1
N
0 - 2 a
(I)
v cc\'
- 2a2 0
0 2
3 J
Тест множителя Лагранжа равен LM = gcT(Z cc) g и распределен асим-птотически как X с 2-мя степенями свободы. Градиенты здесь равны (ё,- — нормированные остатки)
0
I ,(3 ёг - ё,3) ^ 4 z ,(ё,4 - 3) j
gc
1 3a 1
Поэтому
LM = ^N (Z ,(3 ёг - e,3))2 + 241N (z ,(ё- - 3))2.
Два слагаемых, составляющих эту статистику, асимптотически независимы, и каждое распределено как х (1). Первое слагаемое представляет собой тест на асимметрию, а второе — тест на эксцесс. Эту же статистику можно получить и с помощью других семейств распределений. Здесь мы опять стал-киваемся с локально эквивалентными альтернативами.
Точно такой же подход может быть использован в других моделях с нормально распределенными ошибками. Авторы теста Жарк и Бера (Jarque, Bera), применили этот подход к пробиту и моделям с усеченной и цензуриро- ванной зависимой переменной.