2.7. Качество оценки: коэффициент R2
Цель регрессионного анализа состоит в объяснении поведения зависимой переменной у. В любой данной выборке у оказывается сравнительно низким в одних наблюдениях и сравнительно высоким — в других.
Мы хотим знать, почему это так. Разброс значений у в любой выборке можно суммарно описать с помощью выборочной дисперсии Var (у). Мы должны уметь рассчитывать величину этой дисперсии.В парном регрессионном анализе мы пытаемся объяснить поведение у путем определения регрессионной зависимости у от соответственно выбранной независимой переменной х. После построения уравнения регрессии мы можем разбить значение у, в каждом наблюдении на две составляющих — у,, и ег.
Х = У,+ е,- (2.43)
Величина 9і — расчетное значение у в наблюдении / — это то значение, которое имел бы у при условии, что уравнение регрессии было правильным, и отсутствии случайного фактора. Это, иными словами, величина у, спрогнозированная по значению х в данном наблюдении. Тогда остаток е(. есть расхождение между фактическим и спрогнозированным значениями величины у. Это та часть у, которую мы не можем объяснить с помощью уравнения регрессии.
Используя (2.43), разложим дисперсию у:
Var(y) = Var(y + е) = Var(y) + Var(e) + 2Со v(y, е). (2.44)
Далее, оказывается, что Cov (р(., е) должна быть равна нулю (см. упражнение 2.12). Следовательно, мы получаем:
Var(y) = Var(y) + Var(lt;?). (2.45)
Это означает, что мы можем разложить Var (у) на две части: Var (р) — часть, которая «объясняется» уравнением регрессии в вышеописанном смысле, и Var(e) — «необъясненную» часть[XI].
Согласно (2.45), Var (p)/Var (у) — это часть дисперсии у, объясненная уравнением регрессии. Это отношение известно как коэффициент детерминации, и его обычно обозначают Я2:
2 _ Уаг(у)
Var(y) ’ (2-46)
что равносильно
_2 , Var(e)
* 0-*Т)
Максимальное значение коэффициента/?2 равно единице.
Это происходит в том случае, когда линия регрессии точно соответствует всем наблюдениям, так чтоу(. = у j для всех / и все остатки равны нулю. Тогда Var (р) = Var (у), Var (е) = О и R2 = 1.Если в выборке отсутствует видимая связь между у и х, то коэффициент R2 будет близок к нулю.
При прочих равных условиях желательно, чтобы коэффициент R2 был как можно больше. В частности, мы заинтересованы в таком выборе коэффициентов а и Ь, чтобы максимизировать R2. Не противоречит ли это нашему критерию, в соответствии с которым а и Ь должны быть выбраны таким образом, чтобы минимизировать сумму квадратов остатков? Нет, легко показать, что эти критерии эквивалентны, если (2.47) используется как определение коэффициента R2. Отметим сначала, что
е, = у, - 9 і = У і ~ а - Ьх„ (2.48)
откуда, беря среднее значение е(. по выборке и используя уравнение (2.25), получим:
е = у-а-Ьх = у-[у-Ьх]-Ьх - 0. (2.49)
Следовательно,
Var(e) = IX (е, - е)2 = IX еЬ (2.50)
п п
Отсюда следует, что принцип минимизации суммы квадратов остатков эквивалентен минимизации дисперсии остатков при условии выполнения (2.25). Однако если мы минимизируем Var(e), то при этом в соответствии с (2.47) автоматически максимизируется коэффициент R2.