Качество оценивания: коэффициент Я2
Как и в парном регрессионном анализе, коэффициент детерминации R2 определяет долю дисперсии у, объясненную регрессией, и эквивалентно определяется как величина Var (у)/ Var (у), как {1 — Var (е)/ Var (у)} или как квадрат коэффициента корреляции между у и у.
Этот коэффициент никогда не уменьшается (а обычно он увеличивается) при добавлении еще одной переменной в уравнение регрессии, если все ранее включенные объясняющие переменные сохраняются. Для иллюстрации этого предположим, что вы оцениваете регрессионную зависимость у от х, и х2 и получаете уравнение вида:р = a + А,х, + Ь^с2. (5.52)
Далее, предположим, что вы оцениваете регрессионную зависимость у только от х,, в результате получив следующее:
р = а* + Ьх\\. (5.53)
Это уравнение можно переписать в виде:
у = a + А,*х, + 0х2. (5.54)
Если сравнить уравнения (5.52) и (5.54), то коэффициенты в первом из них свободно определялись с помощью метода наименьших квадратов на основе данных для у, х, и х2 при обеспечении наилучшего качества оценки. Однако в уравнении (5.54) коэффициент при х2 был произвольно установлен равным нулю, и оценивание не будет оптимальным, если только по случайному совпадению величина Ь2 не окажется равной нулю, когда оценки будут такими же. (В этом случае величина а будет равна а, а величина 6,* будет равна bv) Следовательно, обычно коэффициент Л2 будет выше в уравнении (5.52), чем в уравнении (5.54), и он никогда не станет ниже. Конечно, если новая переменная на самом деле не относится к этому уравнению, то увеличение коэффициента R2 будет, вероятно, незначительным.
Вы можете решить, что поскольку коэффициент R2 измеряет долю дисперсии, совместно объясненной независимыми переменными, то можно определить отдельный вклад каждой независимой переменной и таким образом получить меру ее относительной важности.
Было бы очень удобно, если бы это стало возможным. К сожалению, такое разложение невозможно, если независимые переменные коррелированы, поскольку их объясняющая способность будет перекрываться. Эта проблема рассматривается в разделе 6.2.F-тесты
В разделе 3.10 F-тест использовался для анализа дисперсии. Теперь, когда мы используем регрессионный анализ для деления дисперсии зависимой переменной на «объясненную» и «необъясненную» составляющие, можно построить F-статистику:
_ ESS /к
RSS /(п-k-l)’ (5’55gt;
где ESS— объясненная сумма квадратов отклонений; RSS— остаточная (необъяс- ненная) сумма квадратов; к — число степеней свободы, использованное на объяснение. С помощью этой статистики можно выполнить F-тест для определения того, действительно ли объясненная сумма квадратов больше той, которая может иметь место случайно. Для этого нужно найти критический уровень F в колонке, соответствующей к степеням свободы, и в ряду, соответствующем (я — к— 1) степеням свободы, в той или иной части табл. А.З.
Чаще всего F-тест используется для оценки того, значимо ли объяснение, даваемое уравнением в целом. Кроме того, с помощью F-статистик можно выполнить ряд дополнительных тестов, что также будет рассмотрено ниже.
Уравнение в целом
При осуществлении F-теста для уравнения в целом проверяется, превышает ли коэффициент/?2 то значение, которое может быть получено случайно. Проверим, является ли значимой совместная объясняющая способность к независимых переменных; тест для этого может быть описан как проверка нулевой гипотезы:
Я0:р,=р2 = ... = р* = 0. (5.56)
В определенном смысле этот тест дополняет /-тесты, которые используются для проверки значимости вклада отдельных случайных переменных, когда проверяется каждая из гипотез р, = 0,..., рА= 0.
При расчете F-статистики для уравнения в целом, возможно, было бы удобно разделить числитель и знаменатель уравнения (5.55) на TSS (общую сумму
квадратов), заметив, что ESS/TSS равняется /?2, a RSS/TSS равняется (1 - /?2).
В результате можно записать:
__ R2/k
(1 - R2) / (п - к -1) (5\'57)
В табл. 5.6 показан анализ дисперсии, иллюстрирующий F-статистику для регрессионной зависимости дохода от образования, стажа работы и возраста, представленной уравнением (5.43).
Сумма квадратов отклонений (с.к.о.) (млн.) | Число степеней свободы (с. с.) | С.к.о., деленная на с. с. | F-статистика | |
Объяснено S, X и А | 207,49 | 3 | 69,16 | 69,16/5,70=12,1 |
Оствток | 91,18 | 16 | 5,70 |
Критический уровень F с 3 и 16 степенями свободы при уровне значимости в 1% составляет 5,27; таким образом, /"-статистика, равная 12,1, указывает на значимый уровень объяснения.