4.1. Описание модели
Обозначим yt е At - действие i-го АЭ, i е I = {1, 2, ..., n} -
n
множество АЭ, y = (y1t y2, ..., yn) е A\' = П Ai - вектор действий
i=1
АЭ, y-i = (yi, y2, ..., y-i, y+i, ..., yn) е A_t = П Aj - обстановка игры
j *i
для i-го АЭ.
Пусть результат деятельности z е A0 = Q(A\') ОС, состоящей из n АЭ, является функцией (называемой функцией агрегирования) их действий: z = Q(y). Интересы и предпочтения участников ОС - центра и АЭ - выражены их целевыми функциями. Целевая функция центра является функционалом Ф(о, z) и представляет собой разность между его доходом H(z) и суммарным вознаграждением
n
t>(z), выплачиваемым АЭ: u(z) = ? si (z), где s(z) - стимулирова-
i=1
ние i-го АЭ, s(z) = (s1(z), s2(z), ..., sn(z)), то есть
Ф(а(), z) = H(z) - X s i (z).
i=1
Целевая функция i-го АЭ для простоты считается сепарабель- ной (все результаты обобщаются на случай несепарабельных целевых функций по аналогии с тем, как это делается в [41-43]) является функционалом fi(si, yi) и представляет собой разность между стимулированием, получаемым им от центра, и затратами ci(yi, ri), где ri е Qi = [di; Д] с - тип АЭ, отражающий эффективность его деятельности, то есть:
fi(Oi(-), yi) = s(z) - фг, ri), i е I.
Отметим, что индивидуальное вознаграждение i-го АЭ в общем случае явным или неявным образом зависит от действий всех АЭ (случай сильно связанных АЭ [36, 43]).
Примем следующий порядок функционирования ОС.
Центру и АЭ на момент принятия решения о выбираемых стратегиях (соответственно - функциях стимулирования и действиях) известны целевые функции и допустимые множества всех участников ОС, а также функция агрегирования. Центр, обладая правом первого хода, выбирает функции стимулирования и сообщает их АЭ, после чего АЭ при известных функциях стимулирования выбирают действия, максимизирующие их целевые функции.Рассмотрим случай, когда центр наблюдает только результат деятельности ОС, от которого зависит его доход, но не знает и не может восстановить индивидуальных действий АЭ, то есть, имеет место агрегирование информации - центр имеет не всю информацию о действиях АЭ, а ему известен лишь некоторый их агрегат.
Обозначим r = (r1, r2, .., rn) и введем относительно параметров ОС следующие предположения, которые, если не оговорено особо, будем считать выполненными в ходе всего последующего изложения материала настоящего раздела:
А.1. "i е I Ai - отрезок с левым концом в нуле.
А.2. " i е I 1) функция ci( ) непрерывна по всем переменным; 2) " yi е Ai, ri е Qi ci(yi, ri) неотрицательна, не убывает по yi и не возрастает по ri, i е I; 3) " ri е Qi ci(0, ri) = 0, i е I.
А.3. Функции стимулирования принимают неотрицательные значения.
А.4. Функция дохода центра непрерывна и достигает максимума при ненулевом результате деятельности ОС.
А.5. Q: A\' ® A0 с Жт - однозначное непрерывное отображение, где 1 ?т < п.
Обозначим Р(о) - множество реализуемых (выбираемых АЭ при данной системе стимулирования) действий. Минимальными затратами центра на стимулирование по реализации действий АЭ у\' е A\' будем называть минимальное значение суммарных выплат элементам, при которых данный вектор действий является равновесием Нэша в игре АЭ, то есть решение следующей задачи:
Z(Q(У\')) ® min , где X(y\') = (о(-) | у\' е Р(о)}. Как и в
ш s(\')ex(y,)
одноэлементной ОС [10, 38], гарантированной эффективностью (далее просто "эффективностью") стимулирования является минимальное значение целевой функции центра на соответствующем множестве решений игры (всюду, где встречаются минимумы и максимумы, будем предполагать, что они достигаются):
К(о()) = min Ф(о(), Q(y)).
ушР(о (•))
Задача синтеза оптимальной функции стимулирования заклю-
*
чается в поиске допустимой системы стимулирования о , имеющей максимальную эффективность:
о* = arg max К(о()).
о (•)
В [41, 43] доказано, что в частном случае, когда действия АЭ наблюдаются центром, и типы АЭ также достоверно известны
п
центру, оптимальной (точнее - 8-оптимальной, где 8 = ? 8, )
г=1
является квазикомпенсаторная система стимулирования о K , зависящая от наблюдаемых действий АЭ:
(5) о к(у*,r) + 8,, у, = у* ,
(5) о,K =< * , г е I,
{ 0 У, * У,
где 8i - сколь угодно малые строго положительные константы, а
*
оптимальное действие у , реализуемое системой стимулирования
[38, 74], является решением следующей задачи оптимального согласованного планирования [10, 38]:
y>) = arg max {Н (y) - ? cl (yt, ri) },
где H (•) - функция дохода центра, зависящая от наблюдаемых
действий АЭ.
Взаимосвязь между функциями Н(-) и Н (•), а такжео(-) и s (•) исследовалась в [2, 3]. В частности, можно считать, что
Н (y) = H(Q(y)). В ходе дальнейшего изложения мы будем предполагать, что функция дохода центра Н() и функция стимулирования s( ) зависят от агрегированного результата деятельности z е A0.
n
Обозначим ВД = Н^(у*(г))) - ? ct (y*, r ).
i=1
Определим множество векторов действий АЭ, приводящих к заданному результату деятельности ОС:
Y(z) = {y е A\' | Q(y) = z} с A\