博弈论——小偷与守卫混合纳什均衡精解（十九）-526互联

从经济学角度上讲，对于理性的人，犯罪成本高于犯罪收益，自然就不会去犯罪。所以简单回答就是，违法成本变高会减少犯罪。使违法成本变高有很多方法，最直接最常见的就是严打，即加大对犯罪的处罚力度。小偷-守卫博弈有助于我们对这些方面的思考，该博弈在双方采用纯策略的情况下不存在纳什均衡，但在双方采用混合策略的情况下存在纳什均衡，且双方都没有动机偏离该纳什均衡。从博弈结果上看，“加大对小偷的处罚，无法降低偷窃事件的发生率，反倒会使守卫偷懒的概率增加”和“加大对守卫的处罚，不会降低守卫偷懒的概率，但是却能使偷窃事件的发生率下降”这两个结论在理论层面反映了“激励悖论”存在的真实性，给生活中的许多问题提供了可参考的指导思想。但是真实场景中环境的复杂性也使得博弈原理更为复杂，需要兼顾多方面的影响，而且要考虑人的感性因素。小偷-守卫博弈是一个简单的问题，也将一直是博弈论中永恒的经典，并不断给人类带来感性的挑战和理性的思考。

一、小偷与守卫博弈(数值版)

假设你是这个聪明理智的小偷，当你看到下面两个支付矩阵时会有什么想法？

图1	图2

通过对比，你的感性告诉你，你将在第2个博弈场景中大有所为——因为你对多出来的4000个单位的收益充满欲望。换句话说，你认为你更有可能在第2个博弈场景中选择偷窃行为。但是如果你足够聪明，你的理性会告诉你，偷窃利益的增长会引起守卫的警觉，守卫在第2个博弈场景中睡觉的可能性明显会小于在第1个场景中睡觉的可能性，因为理智的守卫不可能在看到偷窃利益增长的变化后毫无反应和行动。这样一来，你好像连这两个对比博弈场景都分析不清了......

二、小偷与守卫(理论版)

一守卫看守一个仓库，一小偷要在夜晚去偷仓库的东西。但是守卫有可能晚上睡觉也可能不睡，如果守卫睡觉，小偷偷窃就会成功，他将获得正效用$V$,而由于守卫失职，他将获得负效用$-D$；而如果守卫不睡，守卫能抓住小偷，小偷将获得负效用$-P$; 而小偷也有可能不去偷，那样守卫如果睡觉，他获得正效用$S$。所以守卫有睡和不睡两种策略选择，小偷也有偷和不偷两种策略选择，见图3所示。

图3	图4

该博弈不存在纯纳什均衡，为此我们求解混合策略。设小偷选择偷的概率为$p\_1$，则

\[-D\times p_1+S\times(1-p_1)=0\times p_1+0\times (1-p_1) \]

得到$$p_1=\frac{S}{D+S}$$
设守卫选择睡觉的概率为$p_2$，则

\[V\times p_2+(-P)\times(1-p_2)=S\times p_2+0\times (1-p_2) \]

得到$$p_2=\frac{P}{V+P}$$
从而混合策略纳什均衡为，小偷以$p_1=\frac{S}{D+S}$的概率去偷东西，守卫以$p_2=\frac{P}{V+P}$的概率睡觉,使用混合反应函数见图2。
小偷去偷与否和守卫得到的效用有关，守卫睡觉与否和小偷得到的效用有关。比如说，如果小偷偷窃成功得到的效用$V$越大，间接说明仓库储藏的物品越重要，守卫越不去睡觉。其他情况可以类似分析。

混合纳什均衡的求解

先讨论小偷选择“偷”与“不偷” 两种策略概率的确定。在图4所示中，横轴表示小偷选择“偷＂策略的概率$p_t$，它分布在0到1之间，“不偷＂的概率则等于$1−p_t$；纵轴则反映对应小偷各种“偷” 概率，守卫选择“睡” 策略的期望得益。图中从$S$ 到$-D$连线的纵坐标就是在横坐标对应的小偷＂偷”概率下，守卫“睡”的期望得益$$S (1 - p_t) + (-D)p_t$$是图5的实心直线。

图5	图6

容易说明该线与横轴交点$p^*_t$就是小偷“偷”的最佳概率，“不偷”的最佳概率为$1-p^*_t$。假设小偷“偷”的概率大于$p^*_t$, 守卫“睡”的期望得益小于0，他肯定选择“不睡“，从而小偷偷一次被抓一次有赔无赚，因此小偷“偷”的概率大于$p^*_t$是不可取的。反过来，如果小偷“偷”的概率小于$p^*_t$，则守卫“睡”的期望得益大于0，守卫睡大觉合算，即使小偷提高一些“偷”的概率，只要不大于$p^*_t$，守卫都会选择“睡”，小偷不用害怕会被抓住。在保证不被抓住的前提下，小偷“偷”的概率越大收获越大，因此他会让“偷”的概率趋向于$p^*_t$，均衡点是小偷以概率$p^*_t$和$1-p^*_t$, 分别选择“偷”和“不偷”。此时守卫“睡” 和“不睡” 的期望得益都等千0，选择纯策略“睡” 或“不睡” ，或者混合策略的期望得益都相同。不过，为了让小偷也没有可乘之机，守卫也必须选择特定概率分布的混合策略。
可以用类似的方法分析守卫采取“睡”与“不睡”的混合策略概率分布。结论是图6的$p^*_g$和$1-p^*_g$是守卫的最佳概率选择。
在小偷和守卫的博弈中，小偷分别以概率$p^*_t$和$1-p^*_t$；随机选择“偷＂与“不偷＂，守卫分别以概率$p^*_g$和$1-p^*_g$。随机选择“睡”与“不睡”时，双方都不能通过改变策略改善自己的期望得益，因此构成混合策略纳什均衡。这也是该博弈唯一的纳什均衡。

激励的悖论

小偷与守卫之间的混合策略博弈，还可以揭示一种“激励的悖论” 。假设当局为了抑制盗窃现象而加重对小偷的惩罚，也就是加大$P$，在上图中即$−P$向下移动到$−P^{′}$。如果守卫不改变原均衡的混合策略概率分布，此时小偷＂偷＂的期望得益会变为负值，小偷会停止＂偷＂。但是在长期中，小偷减少＂偷” 会使守卫更多选择＂偷＂，最终守卫会将＂偷＂的概率提高到$p^*_g$，达到新的均衡，小偷＂偷＂的期望得益又恢复到0 ，会重新选择混合策略。由于小偷的混合策略概率分布由上图决定，不受$P$值的影响。因此，在长期中政府加重对小偷的惩罚最多只能抑制短期的盗窃发生率，对长期盗窃率没有影响，长期作用是让守卫更多偷懒。当然，如果将守卫可以轻松赚钱也看作增加社会福利，或者理解成单位可以少派守卫，那么政府加重对小偷的惩罚还是有意义的。
再讨论加重对失职守卫处罚的作用。加重对守卫处罚即$D$增大到$D_1$。如果小偷＂偷＂的概率不变，守卫＂睡＂的期望得益变为负值，守卫选择“不睡＂。守卫＂不睡＂小偷只能减少＂偷＂，直到将$p^*_t$下降到$p^{*'}_t$, 此时守卫又会恢复混合策略。因此，加重对守卫的处罚短期效果是使守卫真正尽职，但长期中并不能使守卫更尽职，守卫的勤勉程度不是由$D$决定。在长期中加重处罚失职守卫的真正作用，恰恰是降低发生盗窃案的概率。

图7	图8

模型的启示

小偷和守卫博弈揭示的这种政策目标和政策结果之间的意外关系，常被称为“激励的悖论” 。这个悖论对于制定政策和进行管理很有启发性。对于上面的分析读者可能仍然存在疑问，因为很难相信现实中的小偷和守卫有选择上述混合策略概率的意识和能力，通过反复博弈摸索均衡概率似乎也不现实。这些问题在类似的混合策略均衡博弈中都存在。这些疑问其实早在纳什提出纳什均衡概念时，就给出了解决方法。纳什一开始就提供了关于纳什均衡的理性主义和群体行为两种解释。理性主义解释是个体理性选择的策略均衡，群体行为解释指大量个体组成的群体中，面临同样博弈间题采用特定纯策略的频率（比例）稳定性。按照这种群体行为解释，小偷与守卫对混合策略的选择，可以分别理解为某个地区偷盗案件发生的频率和该地区所有守卫中偷懒和勤勉者的比例，混合策略纳什均衡就是上述频率和比例之间的平衡关系。这种解释并不要求小偷和守卫有混合策略概率选择的意识和能力，因此更符合实际，对于指导实践也更有意义。

参考文献