Точность коэффициентов регрессии

Рассмотрим теперь теоретические дисперсии оценок а и Ь. Они задаются следующими выражениями (доказательства для эквивалентных выражений можно найти в работе Дж.

Томаса [Thomas, 1983, section 8.3.3]):

(3.25)

Из уравнения (3.25) можно сделать три очевидных заключения. Во-первых, дисперсии а и Ъ прямо пропорциональны дисперсии остаточного члена а2. Чем больше фактор случайности, тем хуже будут оценки при прочих равных условиях. Это уже было проиллюстрировано в экспериментах по методу Монте-Карло в разделе 3.2. Оценки в серии II были гораздо более неточными, чем в серии I, и это произошло потому, что в каждой выборке мы удвоили случайный член. Удвоив и, мы удвоили его стандартное отклонение и, следовательно, удвоили стандартные отклонения а и Ъ. Во-вторых, чем больше число наблюдений, тем меньше дисперсии оценок. Это также имеет определенный смысл. Чем большей информацией вы располагаете, тем более точными, вероятно, будут ваши оценки. В-третьих, чем больше дисперсия х, тем меньше будет дисперсия коэффициентов регрессии. В чем причина этого? Напомним, что (1) коэффициенты регрессии вычисляются на основании предположения, что наблюдаемые изменения у происходят вследствие изменений х, но (2) в действительности они лишь отчасти вызваны изменениями х, а отчасти вариациями и. Чем меньше дисперсия х, тем больше, вероятно, будет относительное влияние фактора случайности при определении отклонений у и тем более вероятно, что регрессионный анализ может оказаться неверным. В действительности, как видно из уравнения (3.25), важное значение имеет не абсолютная, а относительная величина а2 и Var (х).

На практике мы не можем вычислить теоретические дисперсии а или Ь, так как а2 неизвестно, однако мы можем получить оценку о2 на основе остатков.

Очевидно, что разброс остатков относительно линии регрессии будет отражать неизвестный разброс и относительно линии у = а + Рх, хотя в общем остаток и случайный член в любом данном наблюдении не равны друг другу. Следовательно, выборочная дисперсия остатков Var (е), которую мы можем измерить, сможет быть использована для оценки а2, которую мы получить не можем.

Прежде чем пойти дальше, задайте себе следующий вопрос: какая прямая будет ближе к точкам, представляющим собой выборку наблюдений по х и у. истинная прямая у = а + |1х или линия регрессииР = а + Ьх? Ответ будет таков: линия регрессии, потому что по определению она строится таким образом, чтобы свести к минимуму сумму квадратов расстояний между ней и значениями наблюдений. Следовательно, разброс остатков у нее меньше, чем разброс значений и, и Var (е) имеет тенденцию занижать оценку а2. Действительно, можно показать, что математическое ожидание Var (е), если имеется всего одна независимая переменная, равно [(л — 2)/л] а2. Однако отсюда следует, что если определить sI как

(3-26)

si = —L-Var(e), п - 2

то а2 будет представлять собой несмещенную оценку а2 (см. доказательство в работе Дж. Томаса).

Используя уравнения (3.25) и (3.26), можно получить оценки теоретических дисперсий для а и Ь и после извлечения квадратного корня — оценки их стандартных отклонений. Вместо слишком громоздкого термина «оценка стандартного отклонения функции плотности вероятности» коэффициента регрессии будем использовать термин «стандартная ошибка» коэффициента регрессии, которую в дальнейшем мы будем обозначать в виде сокращения «с. о.» Таким образом, для парного регрессионного анализа мы имеем:

(3.27)

Если воспользоваться компьютерной программой оценивания регрессии, то стандартные ошибки будут подсчитаны автоматически одновременно с оценками а и Ь.

Полученные соотношения будут проиллюстрированы экспериментами по методу Монте-Карло, описанными в разделе 3.2.

В серии I и определялось на основе случайных чисел, взятых из генеральной совокупности с нулевым средним и единичной дисперсией (а2 = 1), ах представлял собой набор чисел от 1 до 20. Можно легко вычислить Var (х), которая равна 33,25. Следовательно,

Таким образом, истинное стандартное отклонение для Ъ равно ^0,001504 =

= 0,039. Какие же результаты получены вместо этого компьютером в 10 экспериментах серии I? Он должен был вычислить стандартную ошибку, используя уравнение (3.27); результаты этих расчетов для 10 экспериментов представлены в табл. 3.5. Как видите, большинство оценок достаточно хороши.

Таблица 3.5
Эксперимент	с. о.(Ь)	Эксперимент	с.о.(Ь)
1	0,043	6	0,044
2	0,041	7	0,039
3	0,038	8	0,040
4	0,035	9	0,033
5	0,027	10	0,033

Следует подчеркнуть один основной момент. Стандартная ошибка дает только общую оценку степени точности коэффициента регрессии. Она позволяет вам получить некоторое представление о кривой функции плотности вероятности, как показано на рис. 3.1. Однако она не несет информации о том, находится ли полученная оценка в середине распределения и, следовательно, является точной или в «хвосте» распределения и, таким образом, относительно неточна.

Чем больше дисперсия случайного члена, тем, очевидно, больше будет выборочная дисперсия остатков и, следовательно, существеннее стандартные ошибки коэффициентов в уравнении регрессии, что позволяет с высокой вероятностью заключить, что полученные коэффициенты неточны.

Однако это всего лишь вероятность. Возможно, что в какой-то конкретной выборке воздействия случайного фактора в различных наблюдениях будут взаимно погашены и в конечном итоге коэффициенты регрессии будут точны. Проблема состоит в том, что, вообще говоря, нельзя утверждать, произойдет это или нет.

Упражнения

В тех случаях, когда результат какой-то игры, требующей определенного умения, измеряется числом, повышение уровня игры, достигаемое постоянной практикой, можно представить графически с помощью так называемой кривой обучения. Это особенно наглядно для видеоигр, когда играющий в реальном времени управляет объектом, который атакует и защищается от других объектов, управляемых программой. Тот, кто первый раз участвует в та-

кой игре, обычно проигрывает уже через несколько секунд. Чем больше вы будете играть, тем скорее привыкнете к игре и тем большее количество очков вы будете набирать, хотя очевидно, что могут иметь место некоторые отклонения, вызванные фактором случайности. Предположим, что количество очков определяется кривой обучения

у =500+ 100х + и,

где у — результат очередной игры, х — число игр, проведенных игроком до текущей игры (порядковый номер текущей игры минус единица), и и — случайный член.

В следующей таблице приведены результаты первых 20 игр нового игрока: х автоматически изменяется от 0 до 19; в качестве значений и были взяты числа, полученные с помощью генератора нормально распределенных случайных чисел с нулевым средним и единичной дисперсией, которые были затем умножены на 400; величина у определялась через значения х и и в соответствии с линейной кривой обучения.

Наблюдение	X	и	У	Наблюдение	X	и	У
1	0	-236	264	11	10	636	2136
2	1	-96	504	12	11	-368	1232
3	2	-332	368	13	12	-284	1416
4	3	12	812	14	13	-100	1700
5	4	-152	748	15	14	676	2576
6	5	-876	124	16	15	60	2060
7	6	412	1512	17	16	8	2108
8	7	96	1296	18	17	-44	2156
9	8	1012	2312	19	18	-364	1936
10	9	-52	1348	20	19	-568	2968

Оценивая регрессию между у их, получим уравнение (в скобках указаны стандартные ошибки):

? = 369 + 116,8х.

(190) (17,1)

Почему постоянный член в этом уравнении не равен 500, а коэффициент перед х не равен 100?
Каковы значения стандартных ошибок?
Эксперимент повторяется с 9 другими новыми игроками (в каждом случае случайный член получают путем умножения на 400 разных наборов из 20 случайных чисел), а результаты оценивания регрессии для всех 10 игроков приведены в следующей таблице. Почему постоянный член, коэффициент при х и их стандартные ошибки меняются от выборки к выборке?

Игрок	Постоянная	С. о. ПОСТОЯННОЙ	Коэффициент при X	с.о. коэффициента при X
1	369	190	116,8	17,1
2	699	184	90.1	16,5
3	531	169	78.5	15,2
4	555	158	99,5	14,2
5	407	120	122,6	10,8
6	427	194	104,3	17,5
7	412	175	123,8	15,8
8	613	192	95,8	17,3
9	234	146	130,1	13,1
10	485	146	109,6	13,1

Дисперсия х равна 33,25, а дисперсия и равна 160 ООО. Используя уравнение (3.25), покажите, что стандартное отклонение функции плотности вероятности коэффициента при х равно 15,5. Являются ли приведенные в таблице стандартные ошибки хорошими оценками стандартного отклонения?

<< | >>

↑

Источник: Доугерти К.. Введение в эконометрику: Пер. с англ. — М.: ИНФРА-М,1999. — XIV, 402 с.. 1999

Еще по теме Точность коэффициентов регрессии:

- Инвестиции - История экономики - Основы экономики - Платежные системы - Политэкономия - Рынок ценных бумаг - Ценообразование - Эконометрика - Экономика предприятия - Экономическая теория - Экономический анализ -