Дальнейший анализ дисперсии
Помимо проверки уравнения в целом /"-тест можно использовать для определения значимости совместного предельного вклада группы переменных. Предположим, что вы сначала оцениваете регрессию с к независимыми переменными и объясненная сумма квадратов составляет ESSk.
Затем вы добавляете еще несколько переменных, доведя их общее число до т, и объясненная сумма квадратов возрастает до ESSm. Таким образом, вы объяснили дополнительную величину (ESSm — ESSk), использовав для этого дополнительные (т — к) степеней свободы, и требуется выяснить, превышает ли данное увеличение то, которое может быть получено случайно.Вновь используется /\'-тест, и соответствующая /’-статистика может быть описана следующим образом:
Улучшение качества уравнения/ Число использованных степеней свободы
Е ~ Необъясненная сумма квадратов отклонений/Оставшееся число степеней свободы
-¦ (5.58)
Поскольку RSSm — необъясненная сумма квадратов отклонений в уравнении со всеми m переменными — равняется (TSS — ESSm) и RSSk — необъясненная сумма квадратов отклонений в уравнении с к переменными — равняется (TSS — -ESSk), улучшение качества уравнения при добавлении (т — к) переменных, представленное как разность (ESSm — ESSk), записывается в виде выражения (RSSk — RSSm). Следовательно, соответствующая /\'-статистика равна:
(RSSk-RSSm)/(m-k)
RSSm/(n-m-\\) ’ (5-59gt;
и в соответствии с нулевой гипотезой о том, что дополнительные переменные не увеличивают возможности объяснения уравнения, она распределена с (т — к) и (л —к — 1) степенями свободы. В табл. 5.7 дается анализ таблицы дисперсий для совместного предельного вклада новых переменных.
Например, вернемся к эксперименту по методу Монте-Карло, в котором доход зависит от продолжительности обучения, стажа работы и возраста. Оценка
Сумме квадрате отклонений | Число степеней свободы | C.K.O., деленная на c.c. | F-статистика | |
(с.к.о.) | (c.c.) | |||
Объяснено исходным набором переменных | ESSk | k | ESSJk | ESSk/k RSSk /(n-k -1) |
Остаток | яss=rss-essk | n-k-1 | RSSJ(n-kA) | |
Объяснено новыми | ESS-ESS=RSS-RSS m k k f)) | m-k | RSS k-RSS m | |
переменными | m-k (RSSk - RSS,m)l (m-k) | |||
Остаток | RSS -TSS-ESS_ m it) | п—т—Л | RSSJ(n-m-1) | RSSm/(n-m-\\) |
парной регрессионной зависимости дохода от продолжительности обучения дает ESS, равную 90 020 ООО, TSSсоставила 298 680 ООО, a RSS= 208 650 000 (табл. 5.8).
Критическое значение F с 1 и 18 степенями свободы при уровне значимости в 5% равно 4,41, а при уровне значимости в 1% составляет 8,29. Таким образом, модель, включающая только продолжительность обучения, обеспечивает значимое объяснение при уровне значимости в 5%, но не в 1%.
Если теперь рассмотреть регрессию, включающую также X и А, то можно проверить значимость их совместного предельного вклада. Мы имеем к = 1, т — 3, и RSSm= 91 180 000 (см. табл. 5.8). Следовательно, (RSSk — RSSm) составляет 117 470 000. Число степеней свободы после добавления X и А равняется 16.
Значение F-статистики равно 10,31, а критическое значение F с 2 и 16 степенями свободы при уровне значимости в 1% составляет 6,23. Таким образом, при добавлении ХиА наблюдается значительное улучшение в объяснении дисперсии у.
Таблица 5.8 | ||||
Сумма квадрате отклонений (с.к.о.) (млн.) | Число степеней свободы (с. с.) | С.К.О., деленная на с. с. | F-статистика | |
Объяснено S | 90,02 | 1 | 90,02 | 90,02/11,59=7,77 |
Остаток (кроме S) | 208,65 | 18 | 11,59 | |
Объяснено ХиА | 117,47 | 2 | 58,74 | 58,74/5,70=10,31 |
Остаток (кроме S, X и А) | 91,18 | 16 | 5,70 |