Базисная процедура
Одним из недостатков линейного регрессионного анализа, как это следует из самого названия, является то, что он может быть применен только к линейным уравнениям. В случае простого регрессионного анализа речь идет об уравнениях вида
у = « + Мі. (4-1)
состоящих из постоянной величины (которая может и отсутствовать), независимой переменной, умноженной на некоторый коэффициент, и из случайного остаточного члена возмущения, которым мы можем временно пренебречь.
В общем случае линейное уравнение выглядит так, что каждый объясняющий элемент, за исключением постоянной величины, записан в виде произведения переменной и коэффициента:у = lt;х + р1х1 +Р2х2+... (4.2)
Уравнения вида
у = а + - (4.3)
X
и
у = ахР (4.4)
являются нелинейными. Выбрав значения для а и р и построив графики, мы обнаружим, что оба они представлены кривыми.
Зависимости (4.3) и (4.4) считаются приемлемыми для описания кривых Энгеля, характеризующих соотношение между спросом на определенный то- вар (у) и обшей суммой дохода (х). Как можно определить параметры а и (3 в каждом уравнении, зная значения у их?
В конечном счете в обоих случаях можно применить линейный регрессионный анализ, для этого потребуется лишь небольшая подготовка. Во-первых, заметим, что уравнения (4.1) и (4.2) являются линейными в двух смыслах. Правая часть линейна по переменным, если определить их в представленном виде, а не как функции. Следовательно, она состоит из взвешенной суммы переменных, а параметры являются весами. Например, в уравнении (4.1) имеется просто х,, а не log (х,). Правая часть также линейна по параметрам, так как она состоит из взвешенной суммы параметров, а переменные х в данном случае являются весами.
Для целей линейного регрессионного анализа важное значение имеет только второй тип линейности.
Нелинейность по переменным всегда можно обойти путем использования соответствующих определений. Например, предположим, что соотношение имеет вид:у = lt;х + р1х12 +Р2л/х7+... (4.5)
Если определить zx =хх2, z2= gt;/х7и т.д., то соотношение примет следующий вид:
у = (х + р,г,+р2г2 + ..., (4.6)
и теперь оно является линейным как по переменным, так и по параметрам. Такой тип преобразований является лишь косметическим, и обычно уравнения регрессии записываются с нелинейными выражениями относительно переменных. Это позволяет избежать лишних обозначений.
С другой стороны, уравнение типа (4.4) является нелинейным как по параметрам, так и по переменным, и его нельзя преобразовать только путем замены определений. (Не следует думать, что его можно преобразовать в линейное, если определить Z = xР и подставить хР вместо z\\ поскольку р неизвестно, мы не сможем рассчитать выборочное значение z ) Проблема преобразования нелинейных по параметрам соотношений будет рассмотрена в следующем разделе.
В случае (4.3), однако, единственное, что нам нужно сделать, — это определить z = (1/х). Тогда уравнение (4.3) примет вид:
у = lt;х + рг, (4.7)
и оно будет линейным, в этом случае мы без всяких проблем оценим регрессию между у и z. Постоянный член в уравнении регрессии будет представлять собой оценку а, а коэффициент при z — оценку р.
Пример
Допустим, вы исследуете соотношение между ежегодным потреблением бананов и годовым доходом, и наблюдения приведены в табл. 4.1, где собраны наблюдения для 10 семей (забудем пока о z).
На рис. 4.1 представлено облако точек, соответствующих наблюдениям, а также график уравнения регрессии между у и х:
Из рис. 4.1 видно, что график уравнения регрессии не вполне соответствует точкам наблюдений, несмотря на то что коэффициент при х существенно отличается от нуля при однопроцентном уровне значимости. Очевидно, что точки наблюдений лежат на кривой, тогда как уравнение регрессии характеризуется прямой.
В данном случае нетрудно заметить, что функциональная зависимость между у их определена неправильно. В том случае, если вы не можете представить зависимость в графическом виде (например, если вы используете множественный регрессионный анализ), понять, что где-то допущена ошибка, можно с помощью анализа остатков. В данном случае значения остатков приведены в табл. 4.2.| Таблица 4.1 | ||
| Бананы Доход | ||
| Семья | (а фунтах) (а 10000 долл.) | (г) |
| (У) (х) | ||
| 1 | 1,93 | 1 | 1,000 |
| 2 | 7,13 | 2 | 0,500 |
| 3 | 8,78 | 3 | 0,333 |
| 4 | 9,69 | 4 | 0,250 |
| 5 | 10,09 | 5 | 0,200 |
| 6 | 10,42 | 6 | 0,167 |
| 7 | 10,62 | 7 | 0,143 |
| 8 | 10,71 | 8 | 0,125 |
| 9 | 10,79 | 9 | 0,111 |
| 10 | 11,13 | 10 | 0,100 |
9 = 5,09 + 0,73x; R2 = 0,64. (с.о.) (1,23) (0,20)
Положительные или отрицательные, большие или малые остатки должны чередоваться случайным образом. Здесь же, как видно из таблицы, сначала остатки отрицательны, затем они становятся положительными, достигают максимума, а потом снова уменьшаются и становятся отрицательными: это представляется достаточно сомнительным.
В данном примере значения у и х были получены с помощью метода Монте- Карло, истинное соотношение имеет вид:
у = 12- -^ + Случайный член, (4.9)
х принимает целые значения от 1 до 10, а значения случайного члена получают
Доход, тыс.
долл.Рис. 4.1. Регрессионная зависимость расходов на бананы от годового дохода
с помощью нормально распределенных случайных чисел со средним значением 0 и среднеквадратичным отклонением 0,1.
(4.10)
Если мы знаем это и определим z = 1/х, то уравнение примет линейный вид (4.7). Значение z для каждой семьи уже подсчитано в табл. 4.1. Оценив регрессию между у и z, получим:
9= 12,08 - 10,08г; Л2 = 0,9989. (с.о.) (0,04) (0,12)
Подставив z = 1/х, имеем:
10,08
(4.11)
р= 12,08-
Таблица 4.2
| Семья | У | 9 | е |
| 1 | 1,93 | 5,82 | -3,90 |
| 2 | 7,13 | 6,56 | 0,57 |
| 3 | 8,78 | 7,29 | 1,49 |
| 4 | 9,69 | 8,03 | 1,67 |
| 5 | 10,09 | 8,76 | 1,33 |
| 6 | 10,42 | 9,50 | 0,93 |
| 7 | 10,62 | 10,23 | 0,39 |
| 8 | 10,71 | 10,97 | -0,26 |
| 9 | 10,79 | 11,70 | -0,91 |
| 10 | 11,13 | 12,43 | -1,31 |
С учетом высокого качества оцененного уравнения (4.10) неудивительно, что соотношение (4.11) близко к истинному уравнению (4.9). На рис. 4.2А и 4.2Б показаны регрессионная зависимость и точки наблюдений для у, х и Z- Улучшение качества уравнения, измеряемого с помощью коэффициента R2, отражено в более полном соответствии графиков. Сравните рис. 4.1 и 4.2Б.
Рис. 4.2. А — регрессионная зависимость у от Л/х; Б — расчетная линия
для величин у их