- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
在“有同时选择的两阶段动态博弈”中第二阶 段参与人3和4的稳定行动依赖于第一阶段的可 行结果(a1,a2),表示为(a3*(a1,a2), a4*(a1,a2)),而 不是简单的(a3*, a4*)(关税博弈中第二阶段企业的 均衡产量依赖于政府第一阶段所选择的关税).
而在两阶段囚徒困境中,第二阶段的NE可以完全 不依赖于第一阶段的结果。 分析时要注意3点: 1 逆推归纳法backwards-induction
当然,上述结论对于阶段博弈G有两个及两个 以上 NE(或子博弈完美NE)的G(T)就不成立了。 这种G(T)有多条子博弈完美NE路径。其中可能 包含第一阶段有合作结果的稳定路径。
(二)阶段博弈存在两个以上NE
市场开发博弈。P111 借此了解重复博弈均衡路径、及其效率比较。
*该G重复两次构成一个两阶段的重复博弈,那么 可形成多少条路径?
除了(M,X)和(X,M)(X=L、R、P、Q) 的第二阶段是(P,P)或(Q,Q),其余的第二 阶段都是(R,R)。由分析可知,其中(M,M) 是NE,它表示路径(M,M) (R,R), 平均支付是(3.5,3.5).
2:分析重复博弈的意义 因为其他参与人 过去行动的历史是观测得到的,一个参与人可以 使自己在某个阶段博弈的选择依赖于其他参与人 过去的行动历史,因此,参与人在重复博弈中的 策略空间远远大于和复杂于每一个阶段博弈的策 略空间(试想囚徒困境博弈重复5次,每个 囚徒的纯策略数量会有多少?策略组合的数量会 更多)。这意味着,重复博弈可能带来一些“额 外的”均衡结果,这些结果在一次性博弈中是不 会出现的。
注:在阶段博弈G为完全且完美信息动态博弈 时类似的结论同样成立。设G属于第三章所定义 的完全且完美信息动态博弈,如果G有唯一的逆 推归纳解,则G(T)有唯一的子博弈完美NE:其 中每一阶段的结果都是G的逆推归纳解。类似的, 设G为第三章所定义的有同时选择的两阶段动态 博弈,如果G有唯一的子博弈NE,则G(T)也有唯 一的子博弈完美NE:G的子博弈完美NE重复进 行T次。
合作的出现有赖于两点:一是采取“触发策略”, 二是博弈重复“200次”——足够多次以至于可视 为是无限次。
Proposition If the stage game G has a unique Nash equilibrium then, for any finite T,the repeated game G(T) has a unique subgameperfect outcome:the Nash equilibrium of G is played in every stage. 注
一方的机会主义行为将触发其他参与人策略中 的惩罚机制发生。
触发策略(Trigger strategies):我们把这种包含 着奖励和惩罚机制的策略称为触发策略。正是 由于害怕“触发”其他参与人的惩罚机制,所以 不敢利用机会使自己在该阶段利益最大化,从 而使该阶段的“合作”出现。从这个意义上看, 触发策略是“温柔的”。 该阶段博弈如果只有两个阶段,则无法构造 触发策略(不存在触发策略)。
这就证明了该策略组合是子博弈完美的。从这 条均衡路径中看到:将来利益对当前的选择有 约束。 这种策略有2个特点: 1、第一阶段选A,试探合作。 机会主义 2、后续阶段中包含着奖励和惩罚机制:选A可 以奖励对方,选B可以惩罚对方。因为(A,B) 和(B,A)都是阶段博弈的NE,所以奖励和惩 罚都是可信的。
1、阶段博弈之间没有“物质上”的联系(no Physical links),也就是说,前一阶段博弈 不改变后一阶段博弈的结构(对比之下,序惯 博弈涉及到物质上的联系); 2、所有参与人都观测到博弈过去的历史; 3、参与人的总支付是所有阶段支付的贴现 值之和或加权平均值。
1:阶段博弈本身可能是一个静态博弈, 也可能是一个动态博弈。因此重复博弈可能是 不完美信息博弈,也可能是完美信息博弈,尽 管博弈论专家谈到重复博弈时一般是指前一种 情况。
L
M
参与人2 R P 3,3
Q 3,3
L 4 , 4 5.5 , 4 3 , 3
参 与 人 1
M 4 ,5.5
7 , 7 4 ,0.5 4,0.5 4,0.5
R 3,3
P 3,3 Q 3,3
0.5,4
6,6
3,3
3,3
0.5,4 3 , 3 0.5,4 3,3
7, 3.5 3 , 3 3,3 3.5,7
一、有限次重复博弈 (以two-stage repeated games为例) (一)阶段博弈只有唯一NE 考虑曾经给出的囚徒困境的标准式(回忆并 画出支付矩阵)。 假设两个参与者要把这样一个同时行动博弈重 复两次,并且在第二次博弈开始之前可观测第一 次的结果。再假设整个过程博弈的收益等于两阶 段各自收益的简单相加(即不考虑贴现因素), 我们称这一重复进行的博弈为两阶段囚徒困境。
2 参与人在第二阶段行动只须考虑该阶段的 利益最大化,因为无须“瞻前顾后”。 3 分析第一阶段时,可把第二阶段的均衡结 果下的支付值叠加到第一阶段的相应支付值上。
下面给出有限次重复博弈的定义
Definition Given a stage game G,let G(T)(T<∞) denote the finitely repeated game in which G is played T times, with the outcomes of all preceding plays observed before the next play begins. The payoffs for G(T) are simply the sum of the payoffs from the T stage games.
张维迎P207—209 Sequential game的特征:参与人在前一阶段的 行动选择决定随后的子博弈的结构,因此,从 后一个决策结开始的子博弈不同于从前一个决 策结开始的子博弈,或者说,同样结构的子博 弈只出现一次。 Repeated game,顾名思义,就是同样结构的 博弈重复多次,其中每一次博弈称为阶段博 弈Stage game(也称为原博弈)。 Repeated Game的基本特征有3项:
考虑如下抽象博弈: L 1,1 参与人2 M R P Q 5,0 0,0 0,0 0,0
L
参 与 人 1
M 0,5 R P Q 0,0 0,0
4,4
0,0
0,0 0,0 0,0
3,3 0,0 0,0
0 , 0 0 , 0 4,1/2 0 , 0
0,0
0,0
0 , 0 0 , 0 1/2, 4
上面的例子因为阶段博弈的NE很丰富,且存在 可供奖励和惩罚的NE,所以双方不仅可构造触 发策略,而且触发策略是子博弈完美的(或者 说触发策略所包含的奖励和惩罚是可信的)。 双方的策略均为:第一阶段选择M;如果第一阶 段的行动组合是(M,X)(或(X,M),X 为除M之外的其它可选行动),则第二阶段选P (Q),如果是除此之外的其它任何组合,则选R。 第一阶段的行动组合是(M,M),则第二阶段的行动组 合将是(R,R);第一阶段的行动组合是(M,X)或(X, M),则第二阶段的行动组合将是(P,P)或(Q,Q);第 一阶段的行动组合其它,则第二阶段还是(R,R)。
问题:该策略组合对应的路径是什么?
对应的路径:
(A,A)
(A,B)
(B,A)
该路径的平均支付向量: (2.67 , 2.67) -3#
这条路径比其它8条的效率都更高。是否均衡?
这条路径的第三阶段行动组合(B,A)和第二 阶段行动组合(A,B),本身都是阶段博弈的 NE,双方都不会偏离。因此只要看第一阶段的 行动组合(A,A)是否有会偏离。 验证: 不偏离的平均支付= (3+4+1)/3=2.67 偏离的平均支付= (4+1+1)/3=2
该例子中阶段博弈有唯一的NE,而且是一个帕 累托次优的结果(-5,-5),如果(-1,-1) 能出现,那是一个合作的结果。讨论重复博弈就 是想探寻合作的结果能否内生(endogenesis) .
有限次“囚徒困境”博弈的NE再一次表明了为什 会爆发价格战。试想两博弈方不是囚徒而是两个 大公司,比如可口可乐公司和百事可乐公司、或 者是联合利华公司和宝洁公司,如果摆在这些公 司面前的是两种拓展市场份额策略的选择:保持 原价或降低价格,“囚徒困境”博弈告诉我们这些 公司会降低价格并不断重复下去。这个结论是令 人沮丧的。但实际情况并非完全如此。那么在什 么情况下,它们会合作呢?
Chapter 3
Repeated Games
In this chapter we analyze whether threats and promises about future behavior can influence current behavior in repeated relationships. Much of the intuition is given in the two-period case; a few ideas require an infinite horizon. 区分:repeated games and sequential games
3影响重复博弈均衡结果的主要因素是重复 博弈的次数和信息的完备性(completeness).
重复次数的重要性来自于参与人在短期利益和 长期利益之间的权衡。当博弈只进行一次,参 与人只关心一次性的支付;但如果博弈重复多 次,参与认可能会为了长远利益而牺牲眼前利 益从而选择不同的均衡策略。这是重复博弈分 析给出的一个强有力的结果,它为现实中观测 到的许多合作行为和社会规范提供了解释。 信息不完备的影响将在下一章讨论,这里只讨 论重复次数对均衡结果的影响,并假定信息是 完备的。
如果不考虑混合策略,16条。 其中子博弈完美NE路径有哪些? 从前述的例子中已知,阶段博弈的NE在每个阶 段的重复或交替构成子博弈完美NE。那么不考 虑混合策略NE情况下,有4条。