Модели с бинарной зависимой переменной
20
для описания этой ситуации.
Она предполагает, что зависимая переменная имеет непрерывное распределение, а здесь необходимо, чтобы она имела дискретное распределение.Пусть, например, рассматривается выбор группы людей: быть безработным или работать. Построенная линейная регрессия будет предсказывать абсурдные значения Y - дробные, отрицательные и большие единицы. Математическое ожидание остатков при этом будет даже асимптотически зависеть от X.
Вообще говоря, предсказывать результат выбора можно было бы и по ре-
л 1
зультатам линейной регрессии: если Y (расчетное значение Y) больше V2, то
л 1
берем 1, если Y меньше V2, то берем 0. Хотя это соображение и не улучшает модель, оно подсказывает, какой может быть более адекватная модель.
С формальной точки зрения требуется найти модель, которая порождала бы дискретное распределение, зависящее от X, которое бы хорошо описывало данные. Поскольку для бинарной зависимости переменной распределение будет бинарным, то оно полностью определяется вероятностью получения единицы (как функцией X), которая совпадает с математическим ожиданием, если переменная принимает значения 0 и 1:
E (Y | X) = Prob (Y = 1 | X)1 + Prob (Y = 0 | X) 0 =
=Prob (Y = 1 | X).
Геометрически задача состоит в том, чтобы найти гиперплоскость, которая бы в определенном смысле наилучшим образом разделяла две группы наблюдений (соответствующие 0 и 1) в пространстве регрессоров. Может случиться, что такая плоскость будет не единственной; это происходит при идеальном разделении.