博弈论——完全信息静态博弈（二）-526互联

完全信息静态博弈是指参与者在做出决策之前拥有所有可能的信息，包括对手的策略和利益。因此，每位参与者可以准确地评估各种选择对自己和对手的影响。这种情况下，决策的结果是确定性的，不受随机因素影响。参与者通过理性分析和预测对手的行为，以最大化自身利益。完全信息静态博弈广泛应用于经济、政治和生活中的决策情境，帮助人们理解和优化策略选择，从而达到最佳的个人或集体结果。

一、博弈的策略式

参与人（Players）： $N$参与人的集合；第$i$参与人。
博弈参与人的策略集（Strategy sets）：$S_i$参与人的策略集，$s_i$参与人策略集的一个元素。所有参与人的策略放在一起，称之为博弈的策略组合，表示为$S = (s_1, s_2, … ,s_n)$。
博弈参与人的支付函数（Payoff）: $u_i$参与人$i$的支付函数$i\in N$；$u_i(s_1,s_2,...,s_i,...,s_n)$。
博弈的策略式可用收益矩阵来直观表示，见下图。

二、占优策略（Dominant Strategies）

在完全信息静态博弈中，由于信息完全、参与人同时行动，所以恰好用博弈的策略式描述其模型，又由于参与人有限，所以博弈的策略式可去掉参与人集合，简化为$G = \{\{ S_i \}_{i=1}^N, \{ u_i \}_{i=1}^N \}$ ，$|N|=n$。
在博弈$$G=\{S_1,S_2,S_3,...,S_n;u_1,u_2,...u_n\}$$中，如果$s_i^{'}$和$s_i^{''}$代表的参与者$i$的两个策略，如果对于其他的参与者每一个可能的策略组合，$i$选择$s_i^{'}$的收益都小于选择$s_i^{''}$的收益，则称策略$s_i^{'}$相对于策略$s_i^{''}$是严格劣策略，即

\[u_i(s_1,s_2,...,s_{i-1},s_i^{'},s_{i+1},..,s_n)<u_i(s_1,s_2,...,s_{i-1},s_i^{''},s_{i+1},..,s_n) \]

对其他参与者在其战略空间 $S_1,\cdot\cdot\cdot,S_{i-1},S_{i+1},\cdot\cdot\cdot,S_n$中每一组可能的策略组合 $(s_1,\cdot\cdot\cdot,s_{i-1},s_{i+1},\cdot\cdot\cdot,s_n)$ 都成立。

同样，若$s_i^{'}$和$s_i^{''}$代表的参与者$i$的两个策略，如果对于其他的参与者每一个可能的策略组合，$i$选择$s_i^{'}$的收益都大于选择$s_i^{''}$的收益，则称策略$s_i^{'}$相对于策略$s_i^{''}$是严格优策略，即

\[u_i(s_1,s_2,...,s_{i-1},s_i^{'},s_{i+1},..,s_n)>u_i(s_1,s_2,...,s_{i-1},s_i^{''},s_{i+1},..,s_n) \]

对其他参与者在其策略空间 $S_1,\cdot\cdot\cdot,S_{i-1},S_{i+1},\cdot\cdot\cdot,S_n$中每一组可能的策略组合$(s_1,\cdot\cdot\cdot,s_{i-1},s_{i+1},\cdot\cdot\cdot,s_n)$ 都成立。
若上面关系变为

\[u_i(s_1,s_2,...,s_{i-1},s_i^{'},s_{i+1},..,s_n) \le u_i(s_1,s_2,...,s_{i-1},s_i^{''},s_{i+1},..,s_n) \]

则称策略$s_i^{'}$相对于策略$s_i^{''}$是弱劣策略，反之就是弱优策略。

理性的参与者不会选择严格劣战略，因为他对其他的人的选择没有办法判断，所以这一个战略是他的最优反应。
占优策略：若$s_i^{'}$参与者$i$的一个策略，如果对于其他参与者每一个可能的策略组合，$i$选择$s_i^{'}$的收益都大于或等于选择$s_i$的收益，其中$s_i$是$S_i$任一策略，则称策略$s_i^{'}$是参与人$i$的占优策略，即

\[u_i(s_1,s_2,...,s_{i-1},s_i^{'},s_{i+1},..,s_n) \ge u_i(s_1,s_2,...,s_{i-1},s_i,s_{i+1},..,s_n) \]

对其他参与者在其策略空间 $S_1,\cdot\cdot\cdot,S_{i-1},S_{i+1},\cdot\cdot\cdot,S_n$中每一组可能的策略组合$(s_1,\cdot\cdot\cdot,s_{i-1},s_{i+1},\cdot\cdot\cdot,s_n)$ ，对任一$s_i \in S_i$均成立。

占优策略：是指不论对手选择什么，自己的某个策略都不比其他策略差的策略。如果自己的某个策略严格强于（收益大于）任何其他策略，那么该策略还被称为严格占优策略。占优均衡：如果每个参与人都存在占优策略，那么这些占优策略放在一起，构成了博弈的占优均衡。劣策略：是指不论对手选择什么，自己都不会选择的策略。对于劣策略。可以直接剔除以简化博弈，如果剔除到最后只留下唯一一个策略组合，那么这个策略组合就是我们说的重复剔除严格劣策略均衡。如果存在重复剔除严格劣策略均衡，那么我们说这个博弈是重复剔除劣策略可解的。
【例1】考虑下面的囚徒困境博弈

	坦白	抵赖
坦白	-8，-8	0，-10
抵赖	-10，0	-1，-1

对于选择坦白，对手无论是坦白或者抵赖，选择坦白的结果均好于抵赖，可知，坦白属于占优策略，（-8，-8）称为占优策略均衡。

【例2】考虑下面的博弈（重复剔除严格劣策略）

			参与人2
		左	中	右
参与人1	上	1,0	1,2	0,1
	下	0,3	0,1	2,0

分析上述例子，如果参与人1选择上，参与人2会选择中；如果参与人1选择下，参与人2会选择左，所以战略右就是参与人2的严格劣策略，则上述博弈变为：

		参与人2
		左	中
参与人1	上	1,0	1,2
	下	0,3	0,1

如果参与人2选择左，参与人1会选择上；如果参与人2选择中，则参与人1会选择上，所以策略(下）就是参与人1的严格劣策略，则上述博弈变为：

		参与人2
		左	中
参与人1	上	1,0	1,2

如果参与人1选择上，则参与人2会选择中，所以策略左就是参与人2的严格劣策略，则上述博弈的最终结果就是（上，中）：

		参与人2
		中
参与人1	上	1,2

【例3】考虑下面的博弈（重复剔除严格劣策略）

Player1, Player2	a	b
A	3,4	4,3
B	5,3	3,5
C	5,3	4,3

本例中不存在严格劣策略，则考虑重复剔除弱劣策略。对于Player1, 策略A、B弱劣于C，所以去掉收益矩阵的第一、二行，得

Player1, Player2	a	b
C	5,3	4,3

最后均衡的选择取决于Player2的策略选择。

二、纳什均衡

我们自然地会去想，在这种条件下，两个囚犯会选择怎样的策略呢？先从A的视角想一下，

如果B坦白：A选择坦白，收益是(-6)；A选择沉默，收益是(-12)，因此A会坦白。
如果B沉默：A选择坦白，收益是(0)；A选择沉默，收益是(-1)，因此A会坦白。

同理，B也是这么想的，因此，两人都会选择坦白。

1. 纳什均衡的想法

从上面的思考中，可以看出这种思想：当对手策略选定的时候，我会调整自己的策略，使得自己收益在几种策略选择中是最大的，这时的策略称为“最优反应”。这个时候，如果对手不改变策略的话，我是没有动机去改变自己的策略的。

如果每个人的策略都是“最优反应”，那么就会形成一种稳定的局面，这时的博弈结果就是纳什均衡

2. 纳什均衡形式化定义

纳什均衡(Nash equilibrium)是博弈结果a∗=(a1∗,a2∗,…,aN∗)a^{{*}=\left(a_{1}}, a_{2}^{*}, \ldots, a_{N}^{*}\right)a=\left(a_{1}^{*}, a_{2}^{*}, \ldots, a_{N}^{*}\right)，使得对于每个玩家iii都有： ui(ai∗,a−i∗)≥ui(ai,a−i∗) u_{i}\left(a_{i}^{*}, a_{-i}^{*}\right) \geq u_{i}\left(a_{i}, a_{-i}^{*}\right) \\ u_{i}\left(a_{i}^{*}, a_{-i}^{*}\right) \geq u_{i}\left(a_{i}, a_{-i}^{*}\right) \\ (对手策略选定的时候，自己最优)

纳什均衡简写为：NE

3. 纳什均衡求解：寻找最优反应

玩家iii关于对手策略a−ia_{-i}a_{-i}的最优反应：Bi(a−i)={ai∈Ai:ui(ai,a−i)≥ui(bi,a−i) for all bi∈Ai}B_{i}\left(a_{-i}\right)=\left\{a_{i} \in A_{i}: u_{i}\left(a_{i}, a_{-i}\right) \geq u_{i}\left(b_{i}, a_{-i}\right) \text { for all } b_{i} \in A_{i}\right\}B_{i}\left(a_{-i}\right)=\left\{a_{i} \in A_{i}: u_{i}\left(a_{i}, a_{-i}\right) \geq u_{i}\left(b_{i}, a_{-i}\right) \text { for all } b_{i} \in A_{i}\right\}

同时满足所有人的最优反应的博弈结果，就是纳什均衡。也就是对于 ∀i\forall i\forall i ，满足ai∗∈Bi(a−i∗)a_{i}^{*} \in B_{i}\left(a_{-i}^{{*}\right)a_{i}} \in B_{i}\left(a_{-i}^{*}\right)的博弈结果。

4. 例1：依旧是囚徒困境

B1(c)={c}B1(d)={c}B2(c)={c}B2(d)={c} \begin{array}{ll} B_{1}(c)=\{c\} & B_{1}(d)=\{c\} \\ B_{2}(c)=\{c\} & B_{2}(d)=\{c\} \end{array} \\ \begin{array}{ll} B_{1}(c)=\{c\} & B_{1}(d)=\{c\} \\ B_{2}(c)=\{c\} & B_{2}(d)=\{c\} \end{array} \\ 在收益矩阵上标出这些最优反应：

B1(c)={c}B_1(c)=\{c\}B_1(c)=\{c\}表示在囚徒2选择c的时候，囚徒1会选择c，因为囚徒1的收益(-6 > -12)。对应矩阵中左边红色的”√“。

详细分析如下：

B1(d)={c}B_1(d)=\{c\}B_1(d)=\{c\}表示在囚徒2选择d的时候，囚徒1会选择c，因为囚徒1的收益(0 > -1)。对应矩阵中右边红色的”√“。

B2(c)={c}B_2(c)=\{c\}B_2(c)=\{c\}表示在囚徒1选择c的时候，囚徒2会选择c，因为囚徒2的收益(-6 > -12)。对应矩阵中上边绿色的”√“。

B2(d)={c}B_2(d)=\{c\}B_2(d)=\{c\}表示在囚徒1选择d的时候，囚徒2会选择c，因为囚徒2的收益(0 > -1)。对应矩阵中下边绿色的”√“。

因此，最终得到满足所有人最优反应的结果：(c,c)，也就是两人都坦白。

5. 例2：古诺竞争

这个例子收益是连续的，不能用矩阵来表示。问题如下：

两个厂商{1, 2}生产和销售同一种商品，厂商iii生产的数量记为qiq_iq_i。每件商品生产成本都是c，售价是：max(0,a−b(q1+q2))max(0,a-b(q_1+q_2))max(0,a-b(q_1+q_2)) 求纳什均衡

1) 形式化

G={{1,2},{q1,q2},{u1,u2}}G = \{\{1,2\}, \{ q_1,q_2 \}, \{ u_1,u_2 \} \}G = \{\{1,2\}, \{ q_1,q_2 \}, \{ u_1,u_2 \} \}

其中，收益ui(q1,q2)=(max(0,a−b(q1+q2))−c)qiu_i(q_1,q_2) = (max(0,a-b(q_1+q_2))-c)q_iu_i(q_1,q_2) = (max(0,a-b(q_1+q_2))-c)q_i。(售价-成本)x生产数量

2) 求最优反应函数

对于厂商1：

如果q2≥(a−c)/bq_{2} \geq(a-c) / bq_{2} \geq(a-c) / b，那么对于任意的q1≥0q_1 \ge 0q_1 \ge 0，都有u1(q1,q2)≤0u_{1}\left(q_{1}, q_{2}\right) \leq 0u_{1}\left(q_{1}, q_{2}\right) \leq 0，即没有正收益
如果q2<(a−c)/bq_{2} < (a-c) / bq_{2} < (a-c) / b，那么u1(q1,q2)=(a−b(q1+q2))−c)q1u_1(q_1,q_2) = (a-b(q_1+q_2))-c)q_1u_1(q_1,q_2) = (a-b(q_1+q_2))-c)q_1。
固定q2q_2q_2，q1q_1q_1何时取最大呢？求导！
求解：∂u1(q1,q2)∂q1=a−c−bq2−2bq1=0\frac{\partial u_{1}\left(q_{1}, q_{2}\right)}{\partial q_{1}}=a-c-b q_{2}-2 b q_{1}=0 \frac{\partial u_{1}\left(q_{1}, q_{2}\right)}{\partial q_{1}}=a-c-b q_{2}-2 b q_{1}=0 ，求得q1=(a−c−bq2)/2bq_{1}=\left(a-c-b q_{2}\right) / 2 bq_{1}=\left(a-c-b q_{2}\right) / 2 b，这就是厂商1的最优反应函数

同理，对于厂商2，最优反应函数是：q2=(a−c−bq1)/2bq_{2}=\left(a-c-b q_{1}\right) / 2bq_{2}=\left(a-c-b q_{1}\right) / 2b

3) 纳什均衡

对于满足纳什均衡的博弈结果(q1∗,q2∗)\left(q_{1}^{*}, q_{2}^{{*}\right)\left(q_{1}}, q_{2}^{*}\right)，有： q1∗=B1(q2∗)=(a−c−bq2∗)/2bq2∗=B2(q1∗)=(a−c−bq1∗)/2b \begin{array}{l} q_{1}^{{*}=B_{1}\left(q_{2}}\right)=\left(a-c-b q_{2}^{*}\right) / 2 b \\ q_{2}^{{*}=B_{2}\left(q_{1}}\right)=\left(a-c-b q_{1}^{*}\right) / 2 b \end{array} \\ \begin{array}{l} q_{1}^{{*}=B_{1}\left(q_{2}}\right)=\left(a-c-b q_{2}^{*}\right) / 2 b \\ q_{2}^{{*}=B_{2}\left(q_{1}}\right)=\left(a-c-b q_{1}^{*}\right) / 2 b \end{array} \\ 联立方程，解得q1∗=q2∗=a−c3bq_{1}^{*}= q_{2}^{{*}=\frac{a-c}{3b}q_{1}}= q_{2}^{*}=\frac{a-c}{3b}

最优反应相交之处

三、实例

总结

完全信息静态博弈在市场竞争、定价策略、合作与竞争等经济决策中发挥重要作用。在企业在制定定价、推广、市场份额等策略时，需要考虑竞争对手的决策，这就涉及到博弈的思维；政治家和政府在制定政策、谈判协议时，需要考虑其他国家或政治实体的反应，这也涉及到博弈理论；国际间的环境协议，如气候变化协定，涉及到各国在资源分配上的博弈。
完全信息静态博弈提供了对决策情境的深入理解，帮助人们预测他人可能的行为，并做出更明智的选择。它强调了理性决策者如何在已知信息的基础上优化自己的利益。然而，博弈理论在现实中可能会受到信息不对称、非理性行为和多方利益等因素的影响，因此在实际应用中需要综合考虑更多的因素。尽管如此，完全信息静态博弈仍然为许多领域的决策提供了有益的分析框架。

参考文献