Ошибки измерения зависимой переменной
Ошибки измерения зависимой переменной не имеют столь большого значения. На практике их можно считать составляющими случайного члена. Они нежелательны, так как все, что увеличивает «уровень шума» в модели, приводит к уменьшению точности оценок коэффициентов регрессии; тем не менее, они не вызывают смещения этих оценок.
Предположим, что истинное значение зависимой переменной равно q и истинная зависимость имеет вид:
q = a + Px + v, (8.17)
где v — случайный член. Если у(. — это измеренное значение зависимой переменной в /-М наблюдении и rt — ошибка измерения, то
y, = q, + rr (8.18)
Следовательно, зависимость между наблюдаемым значением зависимой переменной и х представляется выражением:
y — r = a + px + v, (8.19)
которое может быть переписано как
у = а + рх + и, (8.20)
где и — составная случайная переменная (v +г).
Единственное отличие этой модели от обычной заключается в том, что случайный член в уравнении (8.20) имеет две составляющие: первоначальный случайный член и ошибку измерения у. Важно, что здесь нет воздействия на объясняющую переменную х. Следовательно, если переменная х является неслучайной или если она распределяется независимо от и, то МНК по-прежнему будет давать несмещенные оценки.
Дисперсия Var (х), не стремящаяся к конечному пределу при увеличении объема выборки
Если с ростом объема выборки Var (х) неограниченно увеличивается, то в обсуждение последствий включения в объясняющую переменную ошибок измерения требуется внести поправку. Мы видели, что для любой конечной выборки
Cov(z,v) + Cov(w,v)-Cov(z,M-Cov(w,pw)
Р Var(z) + Var(w) + 2Cov(z,w)
Можно показать, что при разумных предположениях, когда Var (z) увеличивается, все другие составляющие ошибки становятся пренебрежимо малыми по сравнению с Var(z), и, следовательно, при росте объема выборки ошибка будет стремиться к нулю.
Другими словами, влияние ошибок измерения становится пренебрежимо малым в больших выборках, в результате чего оказывается, что МНК приводит к состоятельным оценкам. Тем не менее в малых выборках они будут смещенными.Более важное предположение состоит в том, что переменная w действительно гомоскедастична. Это значит, что а2 постоянна; следовательно, мы предполагаем, что дисперсия ошибки измерения не увеличивается по мере ростах. Если же это не так, то наши рассуждения и выкладки становятся некорректными.
Упражнения
- В некоторой отрасли промышленности фирмы определяют соотношение между запасами готовой продукции (К) и ожидаемыми годовыми объемами продаж (Xе) в соответствии с линейной зависимостью:
К=а + рXе.
Фактические объемы продаж X отличаются от ожидаемых на случайную величину и, которая распределена с нулевым математическим ожиданием и постоянной дисперсией:
Х= Xе + и.
При этом распределение и независимо от Xе.
В распоряжении исследователя имеются данные об Ки X(но не об Xе), полученные по результатам перекрестной выборки для фирм в стране. Опишите проблемы, с которыми придется иметь дело в случае использования обычного МНК при построении регрессионной зависимости Кот X и оценивании аир.
- В аналогичной отрасли промышленности фирмы связывают предполагаемые запасы готовой продукции (К*) с ожидаемыми годовыми объемами продаж (Xе), используя линейную зависимость:
Г + а + р*‘.
Фактические объемы продаж X отличаются от ожидаемых на случайную величину и, которая распределена с нулевым математическим ожиданием и постоянной дисперсией:
Х=Хе + и.
Величина и распределена независимо от Xе. Так как непредусмотренные объемы продаж приводят к уменьшению запасов, фактические запасы Y выражаются в виде:
Y= Г - и.
В распоряжении исследователя имеются данные по Y и * перекрестной выборки фирм в масштабе страны (но нет данных по К* и Xе). Опишите проблемы, с которыми придется столкнуться в этом случае, если для оценивания а и р при построении регрессионной зависимости Тот * используется обычный МНК.