Game Theory
博弈论
1.基本知识
研究决策主体的行为发生直接相互作用时的决策及这种决策的均衡问题。博弈论中,严格定义为“完全理性的个人或群体的行为发生直接相互作用的情形”
1.1完全理性和共同知识
1.1.1 完全理性
完全理性:参与人在追逐其目标(用效用表示,即博弈结果给自己带来的满足)最大化时能前后一致地做决策
即:参与人的行为和目标具有一致性
完全理性的主要表现:
参与人的偏好具有一致性,且对具体的决策问题保持稳定
参与人对所面临的决策问题(博弈问题)具有完全的理解,可以对决策问题中的不确定性进行描述、建模
参与人具有强大的(甚至是无限的)逻辑推理能力和计算能力
1.1.2 共同知识
要求“博弈问题的结构(或描述)”和“参与人完全理性”是共同知识
共同知识:如果有一种每个参与人都知道的“信息”或“事件”,并且每个参与人都知道每个参与人都知道它,每个参与人都知道每个参与人都知道每个参与人都知道它,如此等等,那么这种“信息”对于参与人而言就是共同知识。
共同知识 v.s. 相互知识:
相互知识:每个人都知道这一事件或信息
共同知识:可以认为是无穷尽的“相互知识”
博弈论对博弈问题的分析都是在完全理性和共同知识的假设下进行的:
“完全理性”:参与人可对自身的行为给出一个“自认为正确”的预期。这种预期是否确实正确,还取决于参与人对其他参与人行为的预期。如果他对其他参与人的行为预期是正确的,那么他对自身行为的预期就是正确的;反之亦然。
“共同知识”:不仅确保了每个参与人能对其他参与人的行为给出正确的预期,而且还可以对自己的行为预期进行“纠偏”,确保每个参与人都能对自己的行为给出正确的预期。
因此,每个参与人不仅知道选择什么样的行动能使得自己的选择最优,还能预测其他参与人的最优选择
1.2 内省式思维
内省式思维:这是一种有效的博弈分析模式
参与人在预测其他参与人的决策时,可以假设:如果自己处于其他参与人的位置将会如何决策,从而为自己的决策提供支持。“完全理性”和“共同知识”假设确保了,每个参与人采用内省式思维分析其他人的决策时,所得到的结果与其他人自己分析得到的结果完全一样
1.3 博弈论的分类
合作博弈 v.s. 非合作博弈:
博弈过程中参与人之间能否达成一个具有约束力的协议。若能达成,则为合作博弈,否则为非合作博弈
“非合作”并不是说每个参与人总是拒绝和其他参与人合作,而是参与人只根据自己的“可察觉的自我利益”来决策,即使在博弈之前参与人可以相互沟通,他们之间的协议、威胁或许诺都是无法实施的。
非合作博弈中,虽然参与人仅仅由各自的私利驱使,但在某些情况下,却能表现出“合作的行为”。
非合作博弈问题分为“完全信息博弈”和“不完全信息博弈”:
完全信息:所有参与人对博弈问题的信息结构有完全的了解,在博弈开始之前所有参与人对博弈问题本身没有任何不确定性
静态博弈 v.s. 动态博弈:
根据是否包含参与人决策时序的差异来区分。
静态博弈:所有参与人同时选择行动,或虽非同时行动但后行动者并不知道先行动者采取什么具体行动
动态博弈:参与人的行动存在先后顺序,且参与人可以获得有关博弈历史的部分或全部信息
1.4 博弈问题的解
博弈问题的解应为:参与人的一致性预测——所有参与人都预测到的博弈结果
不仅是所有参与人都预测到某个结果会出现
所有参与人都预测到所有的参与人都预测到某个结果会出现——这种一致性预测也应该是共同知识
如果所有参与人都预测一个特定的博弈结果将出现,那么所有参与人都不会利用该预测选择与预测结果不一致的策略,即没有哪个参与人有偏离这个预测结果的愿望。因此这个预测结果最终会成为博弈的结果。
2.完全静态博弈
对于完全信息静态博弈,参与人的决策时序没有先后之分,则所有参与人的战略集和行动集相同
2.1 战略式博弈
2.1.1 描述博弈的基本元素
参与人:博弈中选择行动来最大化自己效用的决策主体。可以是个人,也可以是团体(国家、企业、组织等)。参与人是构成博弈问题的最基本要素,没有参与人就没有博弈问题。一般假设参与人满足“完全理性”“共同知识”假设。
行动是参与人在博弈中的某个时点的决策变量。
用a_i表示参与人i的行动,A_i={a_i}表示参与人i的所有行动的集合。
在n人博弈中,所有参与人行动的有序集a=(a_1,a_2,…,a_n)是n个参与人的行动组合(action profile),它表示博弈中每个参与人采取一个行动的一种博弈情形。
用A表示所有行动组合的集合。上例中,A={(a,a),(a,b),(b,a),(b,b)}。
战略是参与人的行动规则。它规定了参与人在每一种轮到自己行动的情形下,应该采取的行动。它是与博弈的行动顺序相关的、行动的有序集,也是构成博弈问题的基本要素之一。
上例中,如果参与人的决策有先后之分,例如企业1先采取行动,企业2再采取行动。那么企业2的战略就有可能是:如果企业1选择“开发”,自己应该如何(“开发”或“不开发”);否则,自己应该如何(“开发”或“不开发”)。
n人博弈中,用s_i表示参与人i的战略,X_i表示参与人i在博弈中可能面临的所有决策情形的几何,称之为观测集。参与人i在博弈中的战略可以定义为从观测集X_i到行动集A_i的映射:
s_i:X_i→A_i
用S_i={s_i}表示参与人i所有战略的集合。
支付指的是参与人在博弈中的所得。
在博弈分析中,也用效用函数来表示参与人在博弈中的所得,称之为支付。一种特定的博弈情形(如行动组合或战略组合)下参与人得到的确定或期望的效用水平
用u_i表示参与人i的支付,支付组合u=(u_1,u_2,…,u_n)表示参与人在特定博弈情形下得到的支付。
博弈中,每种特定博弈情形的出现都是参与人相互作用的结果,因此参与人在每种博弈情形下的支付(效用水平)与自己和其他参与人的行动或战略都有关。
2.1.2 战略式博弈
定义:战略式博弈是博弈问题的一种规范性描述,有时也称为标准式博弈。战略式博弈是一种相互作用的决策模型。这种模型假设每个参与人仅选择一次行动或战略,并且所有参与人的选择是同时进行的。因此,完全信息静态博弈最适合用战略式博弈来描述。但是也可以用来描述完全信息动态博弈。
战略式博弈包括三个要素:
参与人集合Γ={1,2,…,n};
每位参与人非空的战略集S_i。即∀i∈Γ,∃S_i≠∅;
2.2 Nash均衡
2.2.1 占优战略
上式的大于号严格成立,有时候也称之为“严格占优战略”。
在一个博弈问题中,如果某个参与人具有严格占优战略,那么只要这个参与人使理性的,他肯定会选择他的占优战略。参与人的这种行为称为占优行为,占优行为使理性参与人选择行为的最基本特征。
占优战略均衡:比占优战略更进一步,如果所有参与人都有占优战略,那么只要参与人是理性的,肯定都会选择自己的占优战略。在这种情况下,博弈的结果就由参与人的占优战略共同决定。像这种由参与人的占优战略共同决定的博弈结果,称为占优战略均衡
2.2.2 劣战略
在博弈中,如果战略s_i′是参与人的劣战略,那么参与人i肯定不会选择战略s_i′。实际上,这相当于将战略s_i′从参与人i的战略集S_i中剔除,直接从新的战略集S_i\{s_i′}中选择自己的战略。这种行为称之为剔除劣战略行为,这也是理性的参与人选择行为的基本特征之一。
重复剔除劣战略(只要有一个比他好就把他剔除)
因为参与人一定不会选择劣战略,所以可以把劣战略剔除。
遵循这种思路,如果在新构造的战略式博弈G′中,存在参与人j的某个劣战略s_j′,那么又可以剔除掉这个劣战略,从而构造出一个新的战略式博弈G′′,其中参与人j的战略集为S_j^′=S_j{s_j′}。此时对原来的博弈问题G的解就转化为对博弈问题G′′的解。参与人这种不断剔除劣战略的行为就称为重复剔除劣战略行为。
如果以上重复剔除劣战略的过程可以不断地进行下去,直到新构造出来的博弈中每个参与人都只有一个战略,那么由所有参与人剩下的唯一战略所构成的战略组合就是原博弈问题的解,我们称之为“重复剔除的占优均衡”。此时,我们也称原博弈问题是“重复剔除劣战略可解的”。
弱劣战略
弱劣战略也可以重复剔除以求解博弈问题。但是,在重复剔除的过程中,如果每次可以剔除的劣战略(包括严格劣战略和弱劣战略)不止一个,那么各个劣战略剔除的顺序不同,得到的博弈结果就有可能不同,除非每次剔除的都是严格劣战略。
2.2.3 Nash均衡基本概念
“所有参与人的一致性预测“特点:
假设参与人i在博弈开始前对博弈的结果进行预测,并预测战略组合(s_i^∗,s_−i^∗)将成为博弈的结果,有两层含义;
别的参与人会选择战略s_−i^∗;而参与人i会选择战略s_i^∗;
在别的参与人已经选择战略s_−i^∗的情况下,参与人i为什么会选择战略s_i^∗?
战略s_i^∗应能使参与人i的所得最大化
一个战略组合s^∗=(s_1^∗,…,s_i^∗,…,s_n^∗)要成为博弈的结果,就必须满足:对于所有的参与人,当其他参与人选择战略组合s^∗中给定的战略时,选择s^∗中相应的战略所得到的支付不小于选择其他战略所得到的。也就是,∀i∈Γ,∀s_i∈S_i,u_i(s_i^∗,s_−i^∗)≥u_i(s_i,s_−i^∗)。满足这样条件的战略组合,就称为Nash均衡(Nash equilibrium)。
一个战略组合s′如果不是Nash均衡,就不能成为博弈的解
占优战略均衡一定是Nash均衡
重复剔除的占优均衡也是Nash均衡
2.2.4 如何求解Nash均衡?
对于两人有限博弈(两个参与人,战略空间有限)
1.划线法
2.箭头法
2.2.5 纯战略Nash均衡
在上面的所有例子中,我们所得到的Nash均衡中,都限制了每个参与人只选择一种战略,我们称这种战略为纯战略。参与人选择的行动没有不确定性。对应的Nash均衡成为纯战略Nash均衡(Pure strategy Nash equilibrium)。
2.2.6 混合战略
在有些博弈问题中,可能既存在纯战略Nash均衡,也存在混合战略Nash均衡。
以一定的概率分布来选择自己战略的行为,在博弈论中称为混合战略(mixed strategy)
混合战略解释了一个参与人对其他参与人所采取的行动的不确定性,它描述了参与人在给定信息下以某种概率分布随机选择不同的行动或战略。
混合战略实际上就是定义在纯战略集上的一个概率分布。
期望效用v_i(σ)
参与人1采用纯战略a_1和a_2的期望效用分别是:
v_1(a_1,σ_2)=qu_1(a_1,b_1)+(1−q)u_1(a_1,b_2)=qx_1+(1−q)x_2
v_1(a_2,σ_2)=qx_3+(1−q)x_4
参与人1在混合战略组合σ=(σ_1,σ_2)下的期望效用是:
v_1(σ)=pv_1(a_1,σ_2)+(1−p)v_1(a_2,σ_2)=pqx_1+p(1−q)x_2+(1−p)qx_3+(1−p)(1−q)x_4.
同理,参与人2在混合战略组合σ下的期望效用是:
v_2(σ)=pqy_1+p(1−q)y_2+(1−p)qy_3+(1−p)(1−q)y_4
2.2.7 混合战略Nash均衡
一个战略式博弈,可能没有纯战略Nash均衡,而只有混合战略Nash均衡;也有可能既有纯战略Nash均衡,也有混合战略Nash均衡。
关于这个命题的理解,有几点需要注意的地方:
要区分混合战略Nash均衡和“参与人i的最优混合战略”这两个概念。简单来说,可以认为, “参与人i的最优混合战略”只针对单个的参与人,而混合战略Nash均衡意味着这时所有参与人都选择了自己的最优混合战略。(回忆一下纯战略中的情形)。
命题中提到的是参与人i的最优混合战略,而不是混合战略Nash均衡,所以命题中对于其他参与人的混合战略,出现的是σ_−i,而不是σ_−i^∗。
这个命题告诉我们,如果σ_i^∗是参与人i在给定了对手选定的混合战略σ_−i情况下的最优混合战略,若混合战略规定参与人i以严格正概率选择纯战略s_i^k,则s_i^k一定也是给定σ_−i情况下的一个最优战略。
或者说,所有以正概率进入最优混合战略的纯战略都是参与人i的最优战略,并且参与人i在所有这些纯战略之间一定是无差异的。用符号表示,就是,如果σ_i^1∗>0,…,σ_i^k∗>0,则有v_i(s_i^1,σ_−i)=…=v_i(s_i^k,σ_−i)=v_i(σ_i^∗,σ_−i).
反之,如果参与人i有n个纯战略是最优的,那么这些最优纯战略上的任一概率分布都是参与人i的最优混合战略。
求解两人、两战略的简单的战略式博弈问题的混合战略Nash均衡
例题:
1.请根据上面讲述的方法,自行求解“猜硬币”游戏中的混合战略Nash均衡。验证是否为σ=((1/2,1/2),(1/2,1/2))
2.2.8 战略式博弈的混合扩展(补充内容)
事实上,在建立完全信息静态博弈模型——战略式博弈时,我们定义的参与人的选择只有纯战略,并不包含混合战略。为了将博弈的解(混合战略Nash均衡)和博弈模型严格对应起来,需要将战略式博弈的模型进行扩展,定义一种新的博弈模型——战略式博弈的混合扩展。
上面的定义表明:一个战略式博弈的混合扩展,本质上就是一个战略式博弈,只不过将参与人的选择从纯战略扩展到了混合战略(即定义在纯战略集上的概率分布),参与人的支付从确定的效用u_i扩展到了参与人选择混合战略时的期望效用v_i
2.3 Nash均衡的特性
2.3.1 博弈的解
理论的解释:假定参与人的行为是“合理的”或者“理性的”,那么能够推测出来什么结果.这是博弈论的理论方法。在描述一个博弈的基础之上(不管是用前面介绍的战略式博弈,还是后面将会涉及到的其他博弈模型进行的建模),将“预期会发生什么”。也就是,给定关于参与人行为的假定(例如,理性假设,共同知识假设),某种结果(或者结果的集合)将会合理地跟着发生。
2.3.2 Nash均衡的意义
Nash均衡具有作为博弈一致性预测的特点:所有参与人的自我肯定。
2.3.3 Nash均衡的存在性
Nash均衡的存在性定理1:每一个有限的战略式博弈至少存在一个Nash均衡(包括纯战略Nash均衡和混合战略Nash均衡)。
这个定理针对的是有限的战略式博弈(finite game),即参与人数量有限,参与人的战略数量有限。
2.3.4 Nash均衡的多重性
传统的博弈论研究中,面临的问题或许并不是如何找到博弈的Nash均衡(即存在性问题),而是如何在多个Nash均衡中选择一个合理的均衡(即多重性问题)。
目前,还没有一个一般化的理论可以证明哪个Nash均衡结果一定会出现。
对于Nash均衡的多重性问题,目前的解决思路主要有两种:
第一种称之为均衡精炼的方法。主要思路是从博弈解的定义着手,在Nash均衡的基础上,定义更加精炼的博弈解(所谓的精炼,即perfect),例如子博弈精炼Nash均衡、精炼贝叶斯Nash均衡等。通过剔除Nash均衡中不合理的均衡来解决多重性问题。这种解决思路我们可以称之为规范式的方法,思路具有普遍性,对所有博弈问题均适用。
第二种方法则是非规范式的方法。所谓非规范式的方法,就是针对特定的博弈问题给出特定的解决方案。这样的方法很多,包括“焦点效应”、“相关均衡”等。
2.3.5 Nash均衡的多重性,“焦点效应”
在一个具有多重均衡的博弈中,趋向于将参与人的注意力集中到一个均衡的任何事情,都可能使参与人全都预期并随之实行这个均衡。
这种现象称为“焦点效应”。在焦点效应中,具有某种使它显著地区别于其他所有均衡的性质的均衡,称为焦点均衡
但是,焦点效应不会引导理性的参与人到一个非Nash均衡的战略组合上。
焦点效应只是引导参与人在多个Nash均衡之中选择;
将博弈聚焦于一个特定均衡的简单易行的方法,是在博弈之前进行沟通和商议,称为“廉价磋商”(cheap talk)。
在博弈开始之前,不花任何成本达成的,对参与人没有约束力的协议。所以它并不会将非合作博弈变为合作博弈
廉价磋商实际上是将原来的博弈问题转化为了一个参与人战略更多的新的博弈问题
2.3.6 Nash均衡的多重性,“相关均衡”
所谓的相关均衡,指的是参与人根据某个共同观测到的信号而选择行动,从而引到特定的Nash均衡上。
实际上,将原博弈问题根据“共同观测到的信号来选择行动”这个规则扩展之后,战略数量变多了,因此可能存在新的Nash均衡,就会出现以上的情形。
这种由参与人的行动规则所构成的Nash均衡就称为“相关均衡”。
2.4 Nash均衡的应用
2.4.1 纯战略Nash均衡—Cournot(古诺)模型
该模型研究了在寡头垄断市场中,企业追求利润最大化时的决策问题,该模型包含了如下的假设:
企业生产的产品是同质无差异的。即,消费者在购买企业生产的产品时,仅根据产品的价格做出决策,谁的价格低就购买谁的产品。
企业进行的是产量竞争。也就是说,企业的决策变量为产量。
模型为静态的,即企业的行动是同时的。
两条直线的交点就是Nash均衡。
下面我们考察两个企业是否会合作选择垄断市场。假设每个企业都有两种选择:“合作”和“不合作”。
这个博弈问题有唯一的Nash均衡,就是两个企业都选择“不合作”。也就是说,两个企业都合作从而使得垄断发生,并且各自利润都得到增加的结果是无法得到的。这也是一个典型的囚徒困境式的问题。
原因:每个企业在选择自己的最优产量时,只考虑到对本企业利润的影响,而忽略了对另一个企业的负外部效应。
2.4.2 混合战略Nash均衡—小偷-守卫博弈
从上述的混合战略Nash均衡可以看到一些结果:
每个参与人(小偷、守卫)选择各自的纯战略的概率都取决于对方的支付(事实上,在这个问题中,和自己的支付无关)。例如,小偷选择“偷”或“不偷”的概率,取决于守卫到底是否睡觉,以及守卫睡觉或不睡觉的支付;守卫选择“睡”或“不睡”的概率,取决于小偷的支付。
改变小偷的支付,例如加大小偷被抓后的惩罚T,可以发现守卫选择“睡觉”的概率增加了,而小偷选择“偷”的概率却没有变化。即,加大对小偷的惩罚,并不能从根本上减少偷窃现象的发生,从长期来讲,反而会使得守卫更加偷懒。
同样,改变守卫的支付,加大守卫失职后的惩罚D,则小偷选择“偷”的概率减少了。即,加大对守卫失职后的惩罚,可以从根本上减少偷窃现象的发生。
所以说,上述对这个博弈问题的研究以及结论对管理工作有着重要的启示。为了加强单位的保卫工作,减少偷窃现象的发生,可以选择加大对小偷的打击力度,但这是治标不治本的选择,反而会使得单位的保卫人员更加懒惰。反之,如果加强内部管理,加大对保卫人员失职的惩戒,才是可以从根本上减少偷窃现象发生的做法。
2.4.3 混合战略Nash均衡—监督博弈
2.4.4 混合战略Nash均衡—共同投资博弈
在这个博弈问题中,考虑如下的共同投资模型。两个企业进行投资决策,每个企业面临两个选择:投资大项目或投资小项目。
大项目需要两个企业共同投资才能完成,而小项目可以由每个企业单独完成。
如果两个企业都选择投资大项目,大项目的收益较大,两个企业都可以获得较大的收益,假设他们平分收益,每个企业的收益均为π_1>0。
如果两个企业都选择投资小项目,每个企业都可以获得收益π_2。由于是小项目,所以我们认为π_2<π_1。
如果一个企业投资大项目而另一个企业投资小项目,则投资大项目的企业无法完成项目,收益为0;投资小项目的企业获得收益π_3>0.
右图给出了对应的战略式博弈的描述。
注意到,这里π_3的值需要仔细进行讨论:
首先,两个企业都投资小项目带来的各自的收益,一般来说可以认为要小于一个企业单独投资小项目带来的收益(例如,因为竞争性或项目产品的相互替代性等),所以,一般情况下认为π_3≥π_2。
以上分析说明:
企业之间签订有约束力的协议,有助于增进企业之间的合作,提高企业的收益;
但是,实际情况没有那么简单。一般来说,签订有约束力的协议都是有成本的(如谈判、执行成本等),而且这种成本往往随着罚金的增大而增大。另外,罚金多少的设定,一般取决于小项目的收益(如π_2, π_3),因此小项目的诱惑不仅会妨碍企业之间合作的自发形成,而且还会增大企业之间达成合作的成本。
共同投资博弈的模型对现实生活也有指导意义。例如,两人合伙做生意,如果两人相互了解程度或者信任程度不够,可能就会采取保守策略(例如双方都投资到更保险的小项目上),出现囚徒困境的结果。因此,如果双方不能充分信任对方,那么还不如从一开始就不在一起合伙做生意。反之,如果两人在生意上是长期拍档,相互信任程度较高,或者有相互的约束(例如,未来还有其他项目进行合作),则双方可能进行合作(例如投资到大项目上)。
2.5 例题
2.5.1 Stag Hunt问题
Stag Hunt问题,猎兔博弈
两个参与人去打猎,每个人可以猎鹿,也可以猎兔。要想猎鹿成功,两个参与人必须合作;而猎兔则只需要一个人自己就可以完成。假设两个参与人没有预先的交流,并且同时做出决策.
显然:
(1)鹿比兔大,所以猎鹿得到的支付更大;
(2)但是,如果一个人猎兔,一个人猎鹿,则猎鹿会失败。
右图给出了对应的战略式博弈的表格。
求解这个问题的Nash均衡。
容易发现,这个问题中没有占优战略或劣战略
在参与人2选定“鹿”的情况下,参与人1应选择“鹿”;
在参与人2选定“兔”的情况下,参与人1应选择“兔”;
在参与人1选定“鹿”的情况下,参与人2应选择“鹿”;
在参与人1选定“兔”的情况下,参与人2应选择“兔”;
(鹿,鹿)和(兔,兔)都是这个问题的Nash均衡。
给定其他参与人的战略选择,参与人i的最佳选择
如何比较这两个Nash均衡?
(鹿,鹿)的支付更大,但是比较危险(万一对方选择“兔”)
(兔,兔)支付较小,但是比较安全(无论如何,一方都能得2)
这是一个开放问题,有很多相关得研究
这是一个“协调博弈(Coordination Game)”问题,参与人在选择相同行为的时候获得了最大的支付。
另外,这也是一个对称的博弈问题(两个参与人互换,对问题不会带来任何改变)。
如前所述,Stag Hunt问题的战略式博弈的描述如右图所示。前面我们已经得到,(5,5)和(2,2)都是这个问题的纯战略Nash均衡。下面我们求解这个问题的混合战略Nash均衡。
所以,混合战略Nash均衡是σ=((0.4,0.6),(0.4,0.6))
2.5.2 Battle of Sexes问题
两个参与人(夫妻)需要决策周五晚上去哪里。丈夫喜欢去看足球比赛,妻子喜欢去看芭蕾表演。双方都希望能够在一起共度,不希望分开。类似地,他们也是没有预先的交流,并且同时做出决策(可以认为,他们在白天上班的时候就想好了)。
显然:
(1)丈夫看足球的支付更高,妻子看芭蕾的支付更高
(2)如果两人看的是不同的内容,则两人都支付很低
右图给出了对应的战略式博弈的表格。
一样,这个问题中也不存在占优战略或者劣战略。
类似的,Nash均衡是(足球,足球)和(芭蕾,芭蕾)
如何比较这两个Nash均衡?这个以后再提到。
这也是一个协调博弈问题。
下面我们求解这个问题的混合战略Nash均衡。和Stag Hunt问题不同,Battle of Sexes问题不是一个对称的博弈问题,所以不能直接由对称的特征得到其中一个参与人的混合战略。
即混合战略Nash均衡是σ=((2/3,1/3),(1/3,2/3)).
注意到,该博弈问题有两个纯战略Nash均衡,现在又有一个混合战略Nash均衡,如何在它们之间进行比较?
由以上的计算,可以对比两个纯战略Nash均衡和一个混合战略Nash均衡
下表列出了这三个Nash均衡的对比
可以看出,该博弈的混合战略Nash均衡虽然更公平(因为这时丈夫和妻子的期望收益是相等的),但是在这个混合战略Nash均衡中,两个人的期望收益都变小了(注意到4/3<2)。
因此,光从支付的角度,丈夫和妻子应该合作,选择纯战略Nash均衡(两人前往同样的节目),而不是选择混合战略Nash均衡(根据某个概率分布来随机选择自己去的节目)。
2.5.3 Hawk-Dove问题
Hawk-Dove问题,鹰鸽博弈
参与人是两只鸟,它们要争夺一块很好的栖息地。假设这两只鸟可以表现为鹰的性格,也可以表现为鸽子的性格。一只鸟如果表现为鹰,则它会一直战斗,直至受伤或对手退却;一只鸟如果表现为鸽子,则它会显示出敌意,但是如果对手攻击它就会退却。同样地,认为它们之间没有预先交流,同时做出决策。
显然:
(1)如果两只鸟都是“鹰”,则两败俱伤;如果两只鸟都是“鸽”,则没法打起来,最后共享领地;
(2)如果一只鸟是“鹰”,一只鸟是“鸽”,则“鹰”独享领地。
右图给出了对应的战略式博弈的表格。
同样,两个参与人都没有占优战略或者劣战略。
容易得到,(鸽,鹰)和(鹰,鸽)是这个问题的Nash均衡。
这是一个反协调博弈问题(anti-coordination game),即双方总是选择不同的战略才能达到Nash均衡。
3.完全动态博弈
3.1 扩展式博弈
定义:扩展式博弈包括以下要素:
参与人集合Γ={1,2,…,n}
参与人的行动顺序,即每个参与人在何时行动
每个参与人行动时面临的决策问题:可供选择的行动方案,及行动时所了解的信息
参与人的支付函数:博弈结束时每个参与人得到的博弈结果
从简单的战略/行动,变成了:行动顺序+行动方案+行动时所了解的信息
信息集
在博弈树中,参与人i的一个信息集Ii是参与人i决策节点的一个集合,满足
(1)Ii中的每个决策节点都是参与人i的决策节点;
(2)当博弈到达信息集Ii中的某个决策节点,参与人i知道自己是在I_i中的决策节点上,但是不知道自己究竟在Ii中的哪个决策节点上。
因此,信息集的概念可以用来描述,当轮到参与人i行动时,他知道什么(知道自己位于哪一个信息集),不知道什么(不知道自己位于信息集中哪一个决策节点)。
在扩展式博弈的分析过程中,除了前面一再提到的博弈结构和参与人完全理性为共同知识外,事实上对于多阶段的动态博弈问题,还假设参与人满足“完美记忆”的要求,即参与人不会忘记以前知道或者做过的事情。
扩展式博弈中,博弈中可能发生的每一事件序列,都可以用博弈树中的一条从初始节点到叶子节点之一的由有向枝形成的路径来表示
讲扩展式博弈的Nash均衡时,若不加说明,则指的是纯战略Nash均衡
战略式博弈和扩展式博弈比较
战略式博弈从本质上来讲是一个静态模型
假设所有参与人同时选择战略并得到博弈的结果,不考虑何时行动,不考虑顺序。
适用于描述完全信息静态博弈问题
即使它可以用于描述动态博弈问题,但在所得到的模型中,无法直观地看到博弈问题具有的动态特性(例如,“企业2看到企业1的行动之后再做决策”)
扩展式博弈从本质上来讲是一个动态模型
不仅直观地给出了博弈的结果,还对博弈的过程进行了详尽的描述:例如行动顺序、参与人行动时的决策环境等
前面已经看到,给出动态博弈问题的扩展式描述,可以得到对应的博弈问题的战略式描述。同样,在许多情况下,我们也可以将给定的博弈问题的战略式描述转化为扩展式描述
给定一个扩展式博弈,总有唯一的战略式博弈与之对应;反之,给定战略式博弈,可能存在多个扩展式博弈与之对应。
3.2 子博弈精炼Nash均衡
将Nash均衡作为扩展式博弈的解,有些Nash均衡是明显不合理的
剔除不合理的Nash均衡-不一定能解决多重性问题-子博弈精炼Nash均衡
所谓“子博弈”,就是原博弈的一部分,始于原博弈中一个位于单节点信息集中的决策节点x,并由决策节点x及所有后续节点共同组成。
一个战略组合是子博弈精炼Nash均衡当且仅当它对所有的子博弈(包括原博弈)都构成Nash均衡。原博弈的Nash均衡并不一定是子博弈精炼Nash均衡,除非它还对所有的子博弈都构成Nash均衡
对于完全信息动态博弈,一般都用子博弈精炼Nash均衡作为博弈的解
Kuhn定理:每个有限的扩展式博弈都存在子博弈精炼Nash均衡
Kuhn定理保证了子博弈精炼Nash均衡的存在性,但是,并不能确保所讨论的有限的扩展式博弈都只存在唯一的子博弈精炼Nash均衡
例如,如果原博弈只存在一个子博弈(即原博弈自身),则原博弈的所有的Nash均衡同时也是子博弈精炼Nash均衡
子博弈精炼Nash均衡的求解
逆向归纳法
逆向归纳法对每个子博弈逐一进行求解,因此逆向归纳法所得到的解在各个子博弈上都构成Nash均衡。
逆向归纳法的特点
一定程度上满足动态规划的最优性原理
逆向归纳法对于完美信息(perfect information)的博弈问题尤其适用
注意,完美信息和完全信息不同,完美信息指的是每个参与人决策时都没有不确定性。所以在博弈树中每个参与人的信息集都是单决策节点的。
对于完美信息的博弈问题,子博弈精炼Nash均衡完全满足动态规划的最优性原理。
因为子博弈精炼Nash均衡在任一决策节点上都给出最优决策,所以它不仅在均衡路径(即,均衡战略组合所对应的路径)上给出参与人的最优选择,而且在非均衡路径上也能给出参与人的最优选择。所以,子博弈精炼Nash均衡不会含有参与人在博弈进程中不合理的、不可置信的行动(或战略)。
逆向归纳法实际上是将Nash均衡中的“不可置信的威胁”、“不合理的行动”剔除掉,本质上其实是一种重复剔除劣战略的过程。但是,不能认为,将扩展式博弈转化为战略式博弈描述之后,就可以通过重复剔除劣战略得到子博弈精炼Nash均衡。
如何将“不可置信的威胁”变为“可置信的威胁”?
一种可能的办法是,排除参与人的一些选择
3.3 承诺行动和要挟诉讼
假设企业的2000万投入中,有1000万用于购买设备(固定成本),另1000万用于支付各种人力、材料等成本(可变成本)。假设企业如果在决定是否开发之前就决定购买,则购买设备可以得到优惠,只需要花900万。但是,如果企业提前购买设备但是后来决定“不开发”,则设备只能当废品处理,只能收回400万。
假设,仍然是企业2在企业1之后做决策选择是否开发。但是,在企业1做出决策前,企业2可以决策是否提前购买设备。
容易看出,在新的博弈问题中,子博弈精炼Nash均衡所对应的路径是:企业2提前购买设备,企业1观测到企业2购买了设备后选择“不开发”,然后企业2选择“开发”。
企业2通过提前购买设备,使得自己在随后的博弈进程中无论如何都必须选择“开发”。因此,“企业2无论如何都会选择开发”这时候对企业1来说就是可信的威胁。
这样的行动叫做“承诺行动”(commitment):在博弈开始之前参与人采取的某种改变自己支付或行动空间的行动,它使得原本不可信的威胁变得可信。
承诺行动在许多情况下对参与人都是有利的,因为它使得博弈的精炼均衡发生有利于自己的改变。
承诺行动是有成本的,否则这种承诺就不可信。
承诺行动的应用——要挟诉讼
原告几乎不可能胜诉而其唯一的目的可能是希望通过私了得到一笔赔偿。这样的诉讼叫做要挟诉讼。
自己作,把成本弄高,对方知道警察不可能放弃后知难而退1.
3.4子博弈精炼Nash均衡的特性
第一条,从博弈解的特性来看,子博弈精炼Nash均衡不仅要求在博弈到达的路径上参与人的选择最优,而且要求在博弈没有到达的路径上参与人的选择也要最优。
有学者对这一点提出了疑义,认为与现实中人们的决策不符。因为现实中人们的理性最多能够确保在博弈到达的路径上选择最优,而对于博弈没有到达的路径上人们往往不会去考虑决策是否达到最优。
第二条,从博弈的结果来看,有时候,在某些情况下,子博弈精炼Nash均衡所得到的预测结果与直觉或现实不一定相符。举例,蜈蚣博弈问题。
但是,在一些特殊的情况下,子博弈精炼Nash均衡是唯一的,下面通过一些例子对此进行说明。
- 在完美信息扩展式博弈中,如果没有任何参与人对博弈的结果是无差异的,那么博弈存在唯一的子博弈精炼Nash均衡
- 在完美信息扩展式博弈中,如果不存在这样的参与人,该参与人在某一决策节点上对自己的选择所导致的结果是无差异的,那么博弈存在唯一的子博弈精炼Nash均衡
- 对于一个完全信息但是不是完美信息的博弈:如果博弈的每个子博弈都只存在唯一的Nash均衡,那么该博弈只有唯一的子博弈精炼Nash均衡