Стимулирование в ОС с сильно связанными агентами.
J *i
обстановка игры для i-го агента. Интересы и предпочтения участников ОС - центра и агентов - выражены их целевыми функциями.
Целевая функция центра Ф(о, y) представляет собой разность между его доходом H(y) и суммарным вознаграждением u(y),n
выплачиваемым агентам: u(y) = ? si (y), где s(y) - стимулирова-
i =1
ние i-го агента, s(y) = (a}(y), s2(y), ..., sn(y)). Целевая функция i-го агента fi(si, y) представляет собой разность между стимулированием, получаемым от центра, и затратами ci(y), то есть:
(соответственно - функциях стимулирования и действиях) известны целевые функции и допустимые множества всех участников ОС. Центр, обладая правом первого хода, выбирает функции стимулирования и сообщает их агентам, после чего агенты при известных функциях стимулирования выбирают действия, максимизирующие их целевые функции.
Относительно параметров ОС введем следующие предположения:
множество действий каждого агента совпадает со множеством неотрицательных действительных чисел;
функции затрат агентов непрерывны, неотрицательны и "yi е Ai Ci(y) не убывает по y„ ie J; и " у_г е Л_г с(0, у_г) = 0.
функция дохода центра непрерывна по всем переменным и достигает максимума при ненулевых действиях агентов.
Второе предположение означает, что независимо от действий других агентов любой агент может минимизировать свои затраты выбором нулевого действия. Остальные предположения - такие же, как и в одноэлементной модели (см. второй раздел).
Так как и затраты, и стимулирование каждого агента в рассматриваемой модели зависят в общем случае от действий всех агентов, то агенты оказываются вовлеченными в игру [5], в которой выигрыш каждого зависит от действий всех. Обозначим P(o) - множество равновесных при системе стимулирования s стратегий агентов - множество решений игры (тип равновесия пока не огова-ривается; единственно предположим, что агенты выбирают свои стратегии одновременно и независимо друг от друга, не имея возможности обмениваться дополнительной информацией и полезностью).
Как и в одноэлементной ОС, рассмотренной во втором разделе, гарантированной эффективностью (далее просто «эффективностью») стимулирования является минимальное (или максимальное - в рамках гипотезы благожелательности) значение целевой функции центра на соответствующем множестве решений игры: (3) K(a) = min F(s, у).
yeP(s)
Задача синтеза оптимальной функции стимулирования заклю-
*
чается в поиске допустимой системы стимулирования о , имеющей максимальную эффективность:
о* = arg max K(s).
о eM
Из результатов второго раздела следует, что в частном случае, когда агенты независимы (вознаграждение и затраты каждого из них зависят только от его собственных действий), то оптимальной
(точнее - 8-оптимальной, где 8 = У 8г ) является квазикомпенса-
ie I
торная система стимулирования:
s (y ) \\c(y*) + 8i, yi = y* .
rSiK (Уг ) = {„ ^ i е I,
l0, У, * y
где {8г}г е I - сколь угодно малые строго положительные константы (мотивирующие надбавки), а оптимальное действие y , реализуемое системой стимулирования (5) как РДС, является решением следующей задачи оптимального согласованного планирования:
y* = arg max {H(y) - У ci (y)}.
yeA let
Если стимулирование каждого агента зависит от действий всех агентов (рассматриваемый в настоящем разделе случай коллективного стимулирования) и затраты не сепарабельны (то есть затраты каждого агента зависят в общем случае от действий всех агентов, что отражает взаимосвязь и взаимозависимость агентов), то определения множества равновесий Нэша ЕД(о) с А\'и РДС yd е A\' имеют вид:
Ед(о) = {yN е A | "i е I "у, е А,
Ог(/) - c(yN) > оЫ уД ) - ф, уД )}, е Аг - доминантная стратегия i-го агента, тогда и только тогда, когда
"уi е Ai, " y-i е Л., о,(yid , у.,) - c,(yid , у.,) > о,(у,, у.,) - с,(у„ у.,).
Если при заданной системе стимулирования у всех агентов имеется доминантная стратегия, то говорят, что данная система стимулирования реализует соответствующий вектор действий как
РДС. ^
Фиксируем произвольный вектор действий агентов у е Л\' и рассмотрим следующую систему стимулирования:
(7) о у ) FC, (у*> У-, ) + , у = у* с > 0 . J
(7) о,(у , у) = ] * , d, > 0, г е J.
{0 у, * у,
В [14] доказано, что при использовании центром системы стимулирования (7) у - РДС. Более того, если 8г > 0, i е J, то у - единственное РДС.
Содержательно, при использовании системы стимулирования
центр использует следующий принцип декомпозиции: он
предлагает i-му агенту - «выбирай действие у* , а я компенсирую
тебе затраты, независимо от того какие действия выбрали остальные агенты, если же ты выберешь любое другое действие, то вознаграждение будет равно нулю». Используя такую стратегию, центр декомпозирует игру агентов.
Если стимулирование каждого агента зависит только от его собственного действия, то, фиксировав для каждого агента обстановку игры, перейдем от (7) к системе индивидуального стимули-рования следующим образом: фиксируем произвольный вектор действий агентов у е Л\' и определим систему стимулирования:
У ) fC, (У* , У*г ) + Сг , Уг = У! с > 0 , J (8) о,(у , у,) = < * , с, > 0, г е J.
{ 0 У, * У,
Содержательно, при использовании системы стимулирования
*
(8) центр предлагает i-му агенту - «выбирай действие уг , а я
компенсирую тебе затраты, считая, что остальные агенты также
*
выбрали соответствующие компоненты - y-i , если же ты выберешь любое другое действие, то вознаграждение будет равно нулю».
Используя такую стратегию, центр также декомпозирует игру агентов.Отметим, что функция стимулирования (8) зависит только от
*
действия i-го агента, а величина у-г входит в нее как параметр.
Кроме того, при использовании центром системы стимулирования (8), в отличие от (7), каждый из агентов имеет косвенную информацию обо всех компонентах того вектора действий, который хочет реализовать центр. Для того, чтобы система стимулирования
реализовывала вектор y как РДС, необходимо введение дополнительных (по сравнению со случаем использования (7)) предположений относительно функций затрат агентов - см. [14].
Здесь же уместно качественно пояснить необходимость введения неотрицательных констант {5,},- е j в выражениях (5), (7) и (8). Если требуется реализовать некоторое действие как одно из равно-весий Нэша, то эти константы могут быть выбраны равными нулю. Если требуется, чтобы равновесие было единственным (в частности, чтобы агенты не выбирали нулевые действия - иначе при вычислении гарантированного результата в (3) центр вынужден рассчитывать на выбор агентами нулевых действий), то агентам следует доплатить сколь угодно малую, но строго положительную величину за выбор именно того действия, которое предлагается центром. Более того, величины {дг}г € j в выражениях (5), (7) и (8) играют важную роль и с точки зрения устойчивости компенсаторной системы стимулирования по параметрам модели. Например, если функция затрат i-го агента известна с точностью до Лг ? 5г / 2, то компенсаторная система стимулирования (7) все равно реализует действие y .
* 1
Вектор оптимальных реализуемых действий агентов y , фигурирующий в качестве параметра в выражении (7) или (8), определяется в результате решения следующей задачи оптимального согласованного планирования:
y* = arg max {H(t) - u(t)},
гчЛ\'
где v(t) = ? сг (t) , а эффективность системы стимулирования (7),
ш
(9) равна следующей величине:
K = H(y *) - ? с, (y*) - 5.
ш
В [14] доказано, что система стимулирования (7), (9) является оптимальной, то есть, обладает максимальной эффективностью среди всех систем стимулирования в многоэлементных ОС.
Примеры.
Рассмотрим несколько примеров решения задач синтеза оптимальных систем коллективного стимулирования в многоэлементных ОС.Пример 6. Решим задачу стимулирования в ОС с двумя агентами, имеющими функции затрат: ci(y) = (yi +a Уз-1) , \\ = 1, 2, где
2r
a - некоторый параметр, отражающий степень взаимозависимости агентов. Пусть функция дохода центра H(y) = y1 + y2, а фонд заработной платы ограничен величиной R. Если центр использует систему стимулирования (7), то задача стимулирования сводится к поиску оптимальных реализуемых действий:
Г H (y) ® max
J y >0
|Л( У) + c2( У) < R
Применяя метод множителей Лагранжа, получаем, что решение имеет вид:
2R a r1 + r2
2
2R a r2 + r *
У1
~Г~Г, У*
r1 + r2 a2 -1
\\
r + r2 a -1 \\
Подставляя равновесные действия агентов в целевую функцию центра, получаем, что оптимальный размер ФЗП равен (см. также пример 5)
r1 + r2
R* = arg max \\^2R(r} + r2) /(1 - a) - R]
arg max L , , ^ 2
R>о V1 2/ v 7 J 2(a -1)2
Пример 7 (совместное производство). Рассмотрим многоэлементную двухуровневую ОС, состоящую из центра и n агентов.
Пусть целевая функция 1-го агента fi(y, r) представляет собой разность между доходом hi(y) от совместной деятельности и затратами Cj(y, r) где ri - параметр эффективности (тип) агента, то есть fi(y, ri) = hi(y) - Ci(y, r) i e N.
Выберем следующий вид функций дохода и затрат:
y2
h,(y) = l в Y, i e N, c,(y, r,) = — , i e N,
2(r ± b, ? yj)
j
где Y = ? y,, ? 1г = 1. Для случая, когда в знаменателе стоит
ieJ iGj
r,
знак «-», предполагается, что ? yj < — .
j * i b i
Содержательно набор агентов может интерпретироваться как фирма, подразделения которой (агенты) производят однородную продукцию, реализуемую на рынке по цене в. Суммарный доход в Y распределяется между агентами в соответствии с фиксированными долями {1}г € j. Затраты агента возрастают по его действиям, а эффективность деятельности определяется типом агента гг.
Взаимодействие агентов моделируется зависимостью затрат (эффективности деятельности) каждого из них от действий всех (других) агентов.
Знак «+» в знаменателе соответствует эффективному взаимодействию агентов (убыванию затрат на масштаб) - чем большие действия выбирают другие агенты, тем меньше затраты (выше эффективность деятельности) рассматриваемого агента, что на практике может соответствовать снижению удельных постоянных издержек, обмену опытом, технологиями и т.д. Знак «-» в знаменателе соответствует неэффективному взаимодействию агентов (возрастанию затрат на масштаб) - чем большие действия выбирают другие агенты, тем больше затраты (ниже эффективность деятельности) рассматриваемого агента, что на практике может соответствовать нехватке основных фондов, ограничениям на побочные показатели (например, загрязнение окружающей среды) и т.д. Коэффициенты {Д > 0},- € j отражают степень взаимозависимости агентов.Пусть рыночная цена в известна всем участникам ОС. Тогда, дифференцируя целевые функции агентов, приравнивая производные нулю и складывая получившиеся при этом выражения
y = l в (r, ± b, ? yj ), i e J,
j *i
получим следующую зависимость суммарных действий Y+ от параметра в: 96
1 Q ь.
Г(в) =
Стимулированию соответствует изменение параметров {1i}i e 1, которые могут интерпретироваться как внутренние (внутрифирменные, трансфертные и т.д.) цены. •
Пример 8 (акккордная оплата труда). Рассмотрим ОС с двумя
агентами, имеющими функции затрат Ci(yi) = yi2 / 2ri, где ri - тип i- го агента, yi e Ai = , i = 1, 2. Целевая функция i-го агента пред-
ставляет собой разность между стимулированием oi(y1, y2), получаемым от центра, и затратами, то есть: fi(y) = si(y) - ci(yi), i = 1, 2. Пусть центр использует систему стимулирования
Содержательно, центр выплачивает каждому агенту фиксированное вознаграждение при условии, что сумма их действий оказывается не меньше, чем некоторое плановое значение х > 0.
Обозначим y+ = д/2riCi , i = 1, 2, Y = {(yh y2) | y, ? y+, i = 1, 2,
yi + y2 ?х} - множество индивидуально-рациональных действий агентов, то есть действий, при которых они не перерабатывают (обеспечивать сумму действий, большую плана х, им не имеет смысла) и каждый имеет неотрицательное значение целевой функции. Рассмотрим четыре возможных комбинации переменных (см. рисунки 41-44).
y+
Рис. 41
В первом случае (см. рисунок 41) множество равновесий Нэша составляет отрезок: EN(s) = [N1; N2]. Фиксируем произвольное равновесие
y* = (y*, y*) е ENS). Наличие «большого» равновесия Нэша (отрезка, содержащего континуум точек) имеет несколько минусов с точки зрения эффек-тивности стимулирования. Поясним это утверждение Так как все точки отрезка [N1; N2] эффективны по Парето с точки зрения агентов, то при определении эффективности системы стимулирования центр вынужден (в зависимости от своей функции полезности) либо использовать гарантированный результат (вычислять минимум по этому отрезку), либо доплачивать агентам за выбор конкретных действий из этого отрезка малую, но строго положительную, величину.
Построим систему индивидуального стимулирования в соответствии с результатами, приведенными выше (см. (8) и (9)):
(11) ~ (У1) = Ъ(Уь У*) =
<~2(У2) = 02( У*, У2) = При использовании
\\съ У1 ^ У*
I * \'
1° У1 < У1
С У2 ^ У* 10, У2 < У*
этой системы стимулирования точка У = (У1 > У2) оказывается единственным равновесием Нэша, то есть, переходя от системы стимулирования (10) каждого агента, зависящей от действий всех агентов, к системе стимулирования (11), зависящей только от действий данного агента, центр «декомпозирует» игру агентов, реализуя при этом единственное действие. При этом эффективность стимулирования, очевидно, не только не понижается, а может оказаться более высокой, чем при использовании исходной системы стимулирования.
Уг УГ Рис. 44
У1 Рис. 42
У1 уг
Рис. 43
х
х У1
Во втором и третьем случаях равновесием Нэша являются отрезки [N1; N2], изображенные на рисунках 42 и 43 соответственно. И, наконец, в четвертом случае (см. рисунок 44) множество равновесий Нэша состоит из точки (0; 0) и отрезка [N1; N2], то есть
En(o) = (0; 0) и [N1; N2], причем точки интервала (N1 N2) недоминируемы по Парето другими равновесиями.
Пусть в условиях рассматриваемого примера функции затрат
(уг + a Уз-i )2
. Опре-
агентов не сепарабельны и имеют вид: ci(y)
2ri
делим множество Y индивидуально-рациональных действий агентов: Y = {(y1, y2) I С,(У) ?Ci, i = 1, 2}. Для того чтобы не рассматривать все возможные комбинации значений параметров {r1, r2, C1, C2, х} возьмем случай, представленный на рисунке 45.
y* V2rA x pr2C2 / a
Рис. 45. Множество равновесий Нэша [N;; N2] в случае несепарабельных затрат
В рассматриваемом случае множество равновесий Нэша включает отрезок [Nj; N2]. Система стимулирования
(12) ~*(У) = Ь(У*,У2), У1 = y1 ~*(y) = Ь(у1,У*), y2 = У*
I о, У1 * У1 I О, У 2 * У 2
реализует действие y е [N;; N2] как равновесие в доминантных стратегиях. •
Завершив рассмотрение моделей систем коллективного стимулирования за индивидуальные результаты деятельности агентов, перейдем к описанию моделей систем коллективного стимулирования за результаты совместной деятельности.