Оценка качества модели и проверка гипотез
получен вектор оценок р.
Как в этом случае можно судить о качестве модели и проверять гипотезы?Величину Y = Xв можно назвать по аналогии с линейной регрессией рас-четными значениями. Она является оценкой математического ожидания ненаблюдаемой величины Y, сравнивая которую с нулем делают выбор между 0
и 1. Уравнение Y(X) = 0 задает ту гиперплоскость, которой разделяются две группы точек — те точки, для которых предсказано Yi = 0, и те точки, для которых предсказано Yi = 1 (с помощью критерия Yi < 0 ^ 0, a Yi > 0 ^ 1). Поэтому наглядно о качестве модели можно судить по диаграмме соответст-
23
\r\n і \'1 \r\n \r\nО О е-е- 0 —е —е— Y >\r\nПлохое качество модели\r\nі \r\n \r\n5 - —в—в—в—в- 0
-в Y
>\r\nХорошее качество модели
Рис. 4
вующих точек по Y: чем лучше разделены две группы точек, тем более качественна модель. О качестве модели можно судить также по графику оценки
1
E (Y) по Y (
-Y
1+ е
по Y). Этот график в случае "хорошей" модели должен быть
"крутой" в нуле. (См. Рис. 4)
На этих двух графиках слева внизу и справа вверху расположены правильно предсказанные точки, а слева вверху и справа внизу — неправильно. То же самое можно представить таблицей:\r\n Предсказано\r\n 0 1 Сумма\r\nНа самом 0 X X X\r\nделе 1 X X X\r\n Сумма X X X\r\nПонятно, что "хорошая" модель должна давать высокий процент правильных предсказаний.
Для проверки набора ограничений на параметры удобно использовать
статистику отношения правдоподобия LR = 2 (1D( р) - 1°( PR) ), где
N
l = Y [ Yi ln Pi + (1- Yi) ln (1 - P)] — логарифмическая функция правдо-
i=i
подобия,
P— оценка методом максимума правдоподобия без ограничений, PR — оценка при ограничениях.
Эту же статистику можно использовать для построения показателя качества модели, аналогичного F-статистике для линейной регрессии. Это стати-
стика для проверки гипотезы о том, что коэффициенты при всех регрессорах, кроме константы, равны одновременно нулю.
Соответствующая статистикаотношения правдоподобия равна LR0 = 2 (1(в) - 10) , где 10 - максимум логарифмической функции правдоподобия для константы. Она распределена асимптотически как х с k-1 степенями свободы, где k - количество параметров в исходной модели, включая константу. Величина l получается следующим образом. Пусть N - общее количество наблюдений, n0 - количество наблюдений, для которых Yi = 0, n1 - количество наблюдений, для которых Yi = 1. Тогда предсказанная вероятность появления Yi = 1 в модели с одной константой будет равна для всех наблюдений ni /N . Отсюда 10 = n0 lnn0 + n1 ln n1 - N lnN. Еще один показатель качества модели, основанный на максимуме функции правдоподобия — информационный критерий Акаике:
AIC = - N (1(в) - k).
Для моделей с бинарной зависимой переменной можно сконструировать
2
и некий аналог коэффициента детерминации — псевдо-R :
N
2
? (Y-Y)
R2
N
? (Y -Y)2 + Na1 і=1
2
где Y — среднее Yi , a — дисперсия ошибки Є, которая равна 1 для пробита
2
п
и "3 для логита.