2.7. Качество оценки: коэффициент R2

Цель регрессионного анализа состоит в объяснении поведения зависимой переменной у. В любой данной выборке у оказывается сравнительно низким в одних наблюдениях и сравнительно высоким — в других.

Мы хотим знать, почему это так. Разброс значений у в любой выборке можно суммарно описать с помощью выборочной дисперсии Var (у). Мы должны уметь рассчитывать величину этой дисперсии.

В парном регрессионном анализе мы пытаемся объяснить поведение у путем определения регрессионной зависимости у от соответственно выбранной независимой переменной х. После построения уравнения регрессии мы можем разбить значение у, в каждом наблюдении на две составляющих — у,, и ег.

Х = У,+ е,- (2.43)

Величина 9і — расчетное значение у в наблюдении / — это то значение, которое имел бы у при условии, что уравнение регрессии было правильным, и отсутствии случайного фактора. Это, иными словами, величина у, спрогнозированная по значению х в данном наблюдении. Тогда остаток е(. есть расхождение между фактическим и спрогнозированным значениями величины у. Это та часть у, которую мы не можем объяснить с помощью уравнения регрессии.

Используя (2.43), разложим дисперсию у:

Var(y) = Var(y + е) = Var(y) + Var(e) + 2Со v(y, е). (2.44)

Далее, оказывается, что Cov (р(., е) должна быть равна нулю (см. упражнение 2.12). Следовательно, мы получаем:

Var(y) = Var(y) + Var(lt;?). (2.45)

Это означает, что мы можем разложить Var (у) на две части: Var (р) — часть, которая «объясняется» уравнением регрессии в вышеописанном смысле, и Var(e) — «необъясненную» часть[XI].

Согласно (2.45), Var (p)/Var (у) — это часть дисперсии у, объясненная уравнением регрессии. Это отношение известно как коэффициент детерминации, и его обычно обозначают Я2:

2 _ Уаг(у)

Var(y) ’ (2-46)

что равносильно

_2 , Var(e)

* 0-*Т)

Максимальное значение коэффициента/?2 равно единице.

Это происходит в том случае, когда линия регрессии точно соответствует всем наблюдениям, так чтоу(. = у j для всех / и все остатки равны нулю. Тогда Var (р) = Var (у), Var (е) = О и R2 = 1.

Если в выборке отсутствует видимая связь между у и х, то коэффициент R2 будет близок к нулю.

При прочих равных условиях желательно, чтобы коэффициент R2 был как можно больше. В частности, мы заинтересованы в таком выборе коэффициентов а и Ь, чтобы максимизировать R2. Не противоречит ли это нашему критерию, в соответствии с которым а и Ь должны быть выбраны таким образом, чтобы минимизировать сумму квадратов остатков? Нет, легко показать, что эти критерии эквивалентны, если (2.47) используется как определение коэффициента R2. Отметим сначала, что

е, = у, - 9 і = У і ~ а - Ьх„ (2.48)

откуда, беря среднее значение е(. по выборке и используя уравнение (2.25), получим:

е = у-а-Ьх = у-[у-Ьх]-Ьх - 0. (2.49)

Следовательно,

Var(e) = IX (е, - е)2 = IX еЬ (2.50)

п п

Отсюда следует, что принцип минимизации суммы квадратов остатков эквивалентен минимизации дисперсии остатков при условии выполнения (2.25). Однако если мы минимизируем Var(e), то при этом в соответствии с (2.47) автоматически максимизируется коэффициент R2.

<< | >>

↑

Источник: Доугерти К.. Введение в эконометрику: Пер. с англ. — М.: ИНФРА-М,1999. — XIV, 402 с.. 1999

Еще по теме 2.7. Качество оценки: коэффициент R2:

- Инвестиции - История экономики - Основы экономики - Платежные системы - Политэкономия - Рынок ценных бумаг - Ценообразование - Эконометрика - Экономика предприятия - Экономическая теория - Экономический анализ -