博弈论——囚徒困境的重复博弈（十一）-526互联

前面讨论的博弈都属于“一次性”：每个人做出一个决策后就结束了。但现实中，人们可能会重复参与同一个博弈。两个囚徒有可能在局子里再次相会，老师和学生会在若干年的时间里为考试而反复博弈，寡头厂商之间每天都在勾心斗角……，就产生了重复博弈的理论研究。重复博弈理论的最大贡献是对人们之间的合作行为提供了理性解释，如在囚徒困境中，一次博弈的唯一均衡是不合作（即坦白），但如果博弈无限重复，合作就可能出现。重复博弈有效是因为背叛会受到惩罚，最直接的惩罚是下次我也会背叛你，而你得不到合作的好处。

一、重复博弈阐述

重复博弈在社会经济合作中具有重要意义。在单阶段博弈中，参与人的选择无法建立在对手前阶段行动的基础上，因此参与人会毫不顾忌其他博弈方的利益。而在重复博弈中，过去的行动可以被观察到，参与人的选择可以建立在其他博弈方过去行动的基础上，要考虑到不能引起其他博弈方在后面阶段的对抗、报复或恶性竞争。如过去你欺骗我，这次我不与你合作，过去合作愉快，这次还选择合作。由于过去行动的多样性，每个参与人的策略空间得到扩大，使得合作成为可能。有时，由于一方做出了一种合作的姿态，可能使其他博弈方在今后阶段采取合作的态度，从而实现共同的长期利益。如在一次囚徒困境问题中，合作明明对所有参与人都有利，但是个体理性决定了不合作的结果。而在重复囚徒困境问题中，参与人会认识到合作对自己最有利，从而所有的参与人会选择合作，因此重复博弈可使理性人走出囚徒困境。
在重复博弈中，可信性和子博弈完美性是两个非常重要的概念，可信性指动态博弈中先行动的博弈方是否相信后行动的博弈方会采取对自己有利或不利的行为。如果动态博弈中各博弈方的策略在动态博弈本身和所有子博弈中都构成均衡，则称该策略组合具有子博弈完美性。子博弈完美性是判断均衡是否稳定可靠的重要依据。
由于长期利益对短期行为的制约作用，因此有一些在一次性博弈中不可行的威胁或诺言在重复博弈中会变为可信，从而使博弈的均衡结果出现更多的可能性。
重复博弈可分为有限期重复博弈和无限期重复博弈。如果参与人明显察觉到有一个确定的最后时期，并明确该最后时期信息进入了参与人的策略考虑范围，则称重复博弈为有限期重复博弈，否则称重复博弈为无限期重复博弈。

二、囚徒困境——有限重复博弈

回到囚徒困境的支付矩阵之中：

囚徒困境的结论是：双方都选择坦白。对于囚犯来说，显然是合谋不坦白更有利，但他们没有这么做。如果将他们抓了又放，放了再抓，如此重复\(T\)次（且囚徒知道重复\(T\)次这一点），结果会如何？
我们仍然可以使用逆向归纳法得出结论。在第\(T\)\(T\)期（最后一期），无论之前发生了什么，双方的策略一定都是坦白。这是因为两个囚徒已经失去了合作的可能性和必要性，双方做的是“最后一锤子买卖”，当然不会不坦白。
返回第\(T-1\)期。双方面临着同样的问题：无论第\(T-1\)期做何种决策，第\(T\)期的结果都是确定的。固然其中一个参与人可以承诺在第\(T\)期选择不坦白（也称合作策略），以鼓励另一位参与者在\(T-1\)期与他一起选择不坦白。但这个承诺是不稳定的、不可信的。因为第\(T\)期无论如何都是选择坦白（也称背叛策略）更有利。既然如此，就可以把\(T-1\)期的博弈视为最后一期博弈，结果是同样的：第\(T-1\)期双方都选择坦白。依照这个方法上溯，每一期博弈的结果都将是不合作——双方都选择坦白。
这个结论具有一般性。我们给出如下定理：
令 \(G(T)\) 表示把单次博弈\(G\)重复\(T\)次的重复博弈， \(T<\infty\) （因此是有限重复博弈）。如果\(G\)有唯一的纳什均衡，则重复博弈的唯一的子博弈完美均衡的结果，是博弈\(G\)的纳什均衡重复\(T\)次。即：在博弈的每个阶段出现的结果，都是单次博弈的那个结果。

三、无限重复博弈——囚徒困境

无限重复博弈有两种解释：一是博弈的重复次数 \(T=\infty\)，二是参与者事先不知道博弈的次数。无论采取何种解释，可以肯定的是：逆向归纳法不再适用（因为最后一次博弈不得而知），无限重复博弈的结果和有限重复博弈的结果一定是截然不同的。
无名氏定理（folk theorem，也译作民间定理）表明，（在一定的条件下）任何结果都可能是无限重复博弈的均衡。也就是说，囚徒之间是可能达成合作，也有可能在某一阶段中有人背叛。背叛之后，双方也可能继续合作，也可能不会再合作。总之，可能性是多种多样的。
一种常见的策略叫做触发策略（trigger strategy）。指的是只要对手在博弈的每个阶段都采取合作策略，那么该参与人也将在每个阶段合作；一旦对手在某个阶段选择背叛策略，该参与人就会在未来一段时期内采取不合作策略以示惩罚。
仅持续一期的惩罚策略被称作礼尚往来策略（tit-for-tat strategy，也译作以牙还牙策略、针尖对麦芒策略）。简而言之，这是一种“不记仇”的策略：就像小朋友过家家一样，如果你这次对我不好，下次我也不会对你好；如果你这次回心转意了，下次我们就和好如初。两国之间的外交政策常常会出现这种情况。
一旦遭到背叛就选择永远不合作的惩罚策略被称作冷酷策略（grim strategy）。即：一次不合作意味着永远的不合作，“老死不相往来”。
现在我们来证明：如果两个囚徒都采用“冷酷策略”，一旦一个人选择坦白，则之后两个人都会选择坦白。为了证明这是一个子博弈完美均衡，我们需要确认参与人不会通过改变策略来获得更多的收益。
如果两人都选择不坦白，那么参与人在每个时期都可以获得2的得益。但是每一期得益的时间价值是不同的。为此，我们需要引入贴现因子（discount factor，也称折现因子、折现系数）。设贴现因子为\(\delta\) ，则此时总得益的贴现和为：

\[{{\rm{V}}_1}{\rm{ = }}2{\rm{ + }}2\delta {\rm{ + }}2{\delta ^2}{\rm{ + }} \cdots {\rm{ = }}2\sum\limits_{n = 0}^\infty {{\delta ^n}} = \frac{2}{{1 - \delta }} \]

注：请注意，折现率和贴现因子是两个相似但不同的概念。假设债券的年折现率（或投资收益率）为\(r\)，则贴现因子等于 \(\frac{1}{1+r}\)。

假设某个参与人在第一期选择背叛，那么他在当期可以获得3的得益。但在这一期之后，两个人都会选择坦白，每个人的得益都变为1。此时总得益的贴现和为：

\[{{\rm{V}}_2}{\rm{ = 3 + }}\delta {\rm{ + }}{\delta ^2}{\rm{ + }} \cdots {\rm{ = 3 + }}\sum\limits_{n = 1}^\infty {{\delta ^n}} = 3 + \frac{\delta }{{1 - \delta }} \]

这里使用了等比级数的公式，但请注意求和符号下\(n\)的起始数。
只有当\(V_1\ge V_2\)时，参与人才会采取“冷酷策略”,“冷酷策略”是这个无限重复博弈的子博弈完美均衡。即：

\[\frac{2}{{1 - \delta }} \ge 3 + \frac{\delta }{{1 - \delta }} \]

解得 \(\delta \ge \frac{1}{2}\)。也就是说，贴现率较高时，参与人就会选择合作。而当贴现率小于\(\frac{1}{2}\)时，合作就不可能达成，无限重复囚徒困境博弈的最终结果就是双方都会坦白。
某种程度上，贴现因子衡量了人们的“耐心程度”。如果耐心不足，人们就往往偏好眼前的利益，而对未来收益流的现值估计较低，合作也更不容易达成；如果耐心足够，人们会更注重长远利益，对未来收益流的现值估计较高，合作也更容易达成。

四、承诺与可信度——走出囚徒困境

在动态博弈中，虽然先动者的行为会影响后动者的行为（从而获得一定的先动优势），但后动者也可以传递一些信息，来影响先动者的决策。例如后动者可以对先动者提出一些威胁，然而有些威胁是不可置信的，比如这些威胁付出的成本比获得的收益还高。

为了使自己的策略行动显得可信，就要建立自己的可信度。这里我们提出九种建立自己可信度的方法。
　　一是承诺，就是在策略行动时候，必须同时采取一个附加或从属的行动。例如，我一定会完成这个任务的，附加的行动就是如果不完成自愿扣除奖金，这样更有说服力。
　　二是信誉，所以要尽可能的避免反悔，反悔会丧失自己可信度方面的信誉。说到做到，能够逐渐的增加自己的信誉值。
　　三是合同，为了使你的承诺显得可信，一个最直接的方法就是同意自己在不能遵守承诺时候接受某种惩罚，并将其书面化。当然单有合同并不能解决可信度问题。签订有法律效益的合同，能够让双方都更加放心。
　　四是切断沟通，切断沟通在于它可以使一个行动变得不可逆转，例如遗嘱，一旦一方死亡，再没有谈判的机会了。
　　五是破釜沉舟，军队通常借助断绝自己的后路的做法而达到遵守承诺的目标，这个也适用于日常生活中做决策时使用，切断自己的一切后路，才能全力以赴。并不是所有的行动都适合有B计划，切断自己的所有的后路，才能全力以赴。六是让后果超出你的控制，要想减小过错的后果，就找到一个刚好能够威胁对方又不会太过火，将权力交给对方。例如，如果你真的犯错我就将你移交法律机关，这样谁都不能包庇。
　　七是小步前进，完全信任对方意味着要承担很大的风险，在这种情况下，大家都不愿意信任对方，可以将内容分成一小个一小个部分，开始进行，即使出错也可以尽量减少损失。例如，将一项重要的任务，分给多个人完成，不把鸡蛋放在一个篮子里，减少风险。
　　八是团队合作，其他人可以帮助我们建立可信的承诺，假设有多个人愿意为你担保，则证明你的可信度很高。就是需要提高自己在团队中的信誉。
　　九是受托谈判代理人，将双方的行动由第三方实施，并且切断和代理人联系，可以提高自己的可信度。例如，找第三方公证，常见的有遗嘱公证，婚前公证等等。

五、总结

在重复博弈囚徒困境中，这一情境会进行多轮，并且双方的选择会受到之前选择的影响。合作和背叛之间的选择会随时间演变，因为双方会根据彼此的历史行为来做出决策。这一问题的重要性在于它可以用来探讨合作和背叛的策略，以及如何在多次互动中最大化自己的利益。研究者使用不同的博弈策略和数学模型来研究重复博弈囚徒困境，并寻找最优的策略。一种著名的策略是"冷酷策略"（tit-for-tat），即在首轮选择合作，然后根据对方的前一轮选择来做出相同的选择。这种策略通常在实验中表现良好，因为它鼓励双方在多轮博弈中保持合作，从而获得更大的总体利益。

参考文献