Использование фиктивных переменных для проверки однородности наблюдений и прогнозирования
lnYi - ln L i = а0 + афі + в (ln K - ln L ) + (в1 - в) Di (ln K - ln L можно использовать для проверки гипотезы о том, что коэффициенты регрессии разные для гос.
предприятий и для частных. Гипотеза проверяется с помощью F-теста на добавление переменных Di и Di (ln Ki - ln L i).1 2
В общем случае пусть наблюдения разбиты на две группы — I и I .
1 2
Матрица регрессоров X распадается на две матрицы регрессоров X и X со-
1 2
ответственно, а зависимая переменная Y — на Y и Y соответственно. Нулевая гипотеза состоит в том, что наблюдения порождены моделью Y = XP + є. Альтернативная гипотеза состоит в том, что первая группа наблюдений порождена моделью
Y1 = X р1 + є , а вторая группа наблюдений — моделью Y2 = X 2Р 2 + є2, причем р1 Ф р2.
Введем фиктивную переменную D, такую что Dt=0 при ієі 1 и Dt=1 при ієі 2. Если все ошибки имеют одинаковую дисперсию, то гипотезу можно проверить с помощью регрессии Y по Z = [X X*D]. Здесь X*D обозначает прямое произведение матрицы X на D, так что i-я строка матрицы Z равна Zt
= [Xt, DXi].
Тест на равенство коэффициентов регрессии в двух выборках, называют тестом Чоу. Нулевая гипотеза проверяется с помощью F-статистики для гипотезы о том, что коэффициенты при всех добавленных переменных равны нулю.
Еще одно использование фиктивных переменных — проверка гипотезы о том, что некоторое наблюдение принадлежит к той же выборке, что и все ос-
-.—ж- *
тальные наблюдения. Пусть i — номер этого наблюдения. Введем фиктив-
*
ную переменную D, такую что Dt=0 при i Ф i и Dt* =1. Добавим эту переменную в исходную регрессию. Нужной нам статистикой будет F- или t- статистика для гипотезы о том, что коэффициент при добавленной переменной равен нулю. Если нулевая гипотеза отвергается, то соответствующее наблюдение следует считать выбросом.
Назовем этот тест тестом для выбросов.*
Тот же тест можно провести для небольшой группы наблюдений і . Требуется добавить регрессию по одной фиктивной переменной описанного вида
*
для каждого из наблюдений ієі . Нужной нам статистикой будет F- статистика для гипотезы о том, что коэффициенты при всех добавленных переменных одновременно равны нулю.
Фиктивные переменные, которые равны нулю для всех наблюдений кроме одного, обладают тем свойством, что при добавлении их в регрессию со-ответствующий остаток зануляется.
Если в тесте Чоу одна из двух выборок содержит мало наблюдений (не больше количества регрессоров), то остатки в этой выборке должны зану- литься при применении ОМНК. В этом случае тест Чоу совпадает с описанным только что тестом для выбросов.
Рассмотрим теперь использование фиктивных переменных для прогнозирования. Пусть мы оценили некоторую регрессию (Y=Xfi+ є) и у нас имеются дополнительные наблюдения, для которых известна матрица регрессо- * *
ров (X ), но неизвестны значения зависимой переменной (Y ). Предсказания
находятся по формуле X Д где в — оценки ОМНК из регрессии Y по X. Эти предсказания можно найти с помощью следующей регрессионной модели:
+
є
*
є
Y 0
X O
*
X I
в
в
Вместо неизвестной зависимой переменной здесь стоят нули, и добавлены фиктивные переменные, каждая из которых равна нулю для соответственного добавочного наблюдения. Оценки в будут совпадать с в, а оценки в
sk >!< sj« л.
будут равны в = - X в, то есть будут равны предсказаниям со знаком минус. Стандартные ошибки предсказаний будут равны стандартным ошибкам оце-
л *
нок в , полученным из той же регрессии.
*
Пусть теперь Y становятся известными. Интересно было бы проверить, насколько фактические значения отличаются от предсказанных. Оказывается,
можно воспользоваться аналогичной регрессией, в которой слева вместо ну*
лей стоят Y :\r\n" Y " X о " Г в 1 + є\r\n_ Y* _ _ X і _ - в - *
- є -\r\nОценки коэффициентов при фиктивных переменных в этом случае будут
равны ошибкам предсказаний в = Y - X в. Тест на адекватность предсказаний проводится как тест на одновременное равенство коэффициентов при
*
фиктивных переменных нулю: в = 0. Очевидно, что этот тест совпадает с тестом для выбросов.