博弈论chapter3
- 格式:pdf
- 大小:216.28 KB
- 文档页数:10
描求扩证序境。
of play.参无论何时采取行动,参与者都需要考虑他们当前的行动会如何影响未来的行动,包括对手和博它动,指出了博弈的所有可能结果。
决所有的连续决策点。
decision maker in a 博策树。
博节分每一分支都从博弈树上的一个决策点指向另一个决策点或终结点。
terminal node.在一个分支;不过,仅允许有一个分支指向任何一个决将引收益。
终结点并不是所有博弈必需的;一些博弈理论上可以永远进行下去on forever我参Anode is called a 参安均会发生什么?一个名叫卡门的少女正在决定是否要吸烟。
A teenager named Carmen is deciding whether to smoke.首如不一带给她不同的感受和收益。
taste, as well as different payoffs.单门分析一开始,考虑与终结点直接相连的那些行动点。
Start analysis by considering those action nodes that lead directly to terminal nodes.在利在通沿着贯穿整个博弈树的标出的唯一路径,就知道了当所有参与者在正确预测了所有的未来后果下做出最优选择时,这当由The outcome that arises from playing these在在会,甚至根本就没出现!但是,它的可能的出现和潜在的策略在决定今日卡门的招术时发挥了作用。
三每捐但为的所有结果进行赋值(排序)。
可3不多少种?如我均参不However, the equilibrium path of play is complete specification of the rollback equilibrium.它反略得到的。
艾尼塔根在街道花园博弈的反转均衡中,艾米丽得到了最好的结果(the opportunity to make the first move.先不后当这些操纵的招术就是Tactics for such manipulation are第第第第第第第三步:反转求解Step 3: Rollback第一它Slide 47一但一国然对实考有人拿出下。
《博弈论》第三章读后感在我对《博弈论》第三章的阅读中,我深感博弈论的魅力和其在生活中的应用。
博弈论,又称为对策论(Game Theory)、赛局理论等,既是现代数学的一个新分支,也是运筹学的一个重要学科。
它主要研究公式化了的激励结构间的相互作用,是研究具有斗争或竞争性质现象的数学理论和方法。
第三章中,作者详尽地阐述了纳什均衡的概念和重要性。
纳什均衡是一种策略组合,使得每个参与者的策略都是最优的,没有人能够通过单方面改变策略来改善自身的境况。
这就像是在一个完全竞争的市场中,每个厂商都选择最优的产量来最大化自己的利润,而整个市场的供给和需求决定了均衡价格。
纳什均衡的概念让我理解到,在现实生活中,人们如何在各种复杂的关系中寻找最佳的策略。
无论是商业竞争、政治谈判、还是日常生活中的互动,我们都可以运用博弈论来理解和预测他人的行为,并找到最优的应对策略。
此外,博弈论还强调了预测行为的重要性。
在游戏中,预测对方的策略并据此做出反应是至关重要的。
同样的,在现实生活,我们也需要预测他人的行为并据此做出决策。
这就像是在一场商业竞争中,我们需要预测竞争对手的行动并制定最佳的营销策略。
博弈论的思想和应用广泛而深入。
它不仅被应用于经济学、政治学、军事学等领域,还被用于生物学、社会学等其他学科。
例如,生物学家使用博弈理论来理解和预测进化论的某些结果。
在社会学中,博弈论被用来解释社会现象和人际关系。
总的来说,《博弈论》第三章给我留下了深刻的印象。
它不仅让我理解了博弈论的基本概念和原理,还让我看到了它在现实生活中的应用。
通过学习博弈论,我能够更好地理解和预测他人的行为,并找到最优的应对策略。
我相信,在未来的学习和工作中,我会更深入地学习和应用博弈论,以提高自己的决策能力和竞争力。
第三章完全信息动态博弈上一章介绍了完全信息静态博弈,本章在前面的基础上探讨完全信息动态博弈。
现实社会经济活动的决策大多数是有先后顺序的行为而不是同时选择的行为,而且后行者能够看到先行者的决策内容,在先行者的决策结果之后再定夺自己的策略。
这样的经济行为比比皆是,如商业活动中的讨价还价,拍卖活动中的轮流竞价,资本市场上的收购兼并和反收购兼并都是如此。
依次选择与一次性同时选择有很大的差异,因此这种决策问题构成的博弈也是从时间序列上有别于静态博弈的,我们称之为“动态博弈”(Dynamic Games)。
例如下象棋通常需要两个参与人,我们定义为红方和黑方,红方先走,黑方后走,这是一个典型的完全信息动态博弈。
动态博弈由于添加了时间因素,因而更加贴近现实。
根据博弈方是否相互了解得益情况,可分为“完全信息动态博弈”和“不完全信息动态博弈”,根据是否所有博弈方都对自己选择前的博弈过程完全了解,可分为“完美信息动态博弈”和“不完美信息动态博弈”。
在本章中,我们首先对博弈的扩展式表达给出完整的定义,为动态博弈的分析奠定基础;其次,我们从扩展式表述博弈的纳什均衡分析逐步深入到子博弈精炼纳什均衡,为动态博弈的分析提供可行的方法,接下来介绍两种完全信息动态博弈经典模型;最后,分析具有无穷次的重复博弈,推导出无名氏定理。
3.1 博弈的扩展式表述在动态博弈中,博弈方的行动是有先后次序的,且后行动者在自己行动之前能够观测到先行动者的行动,每个博弈方的一次选择行为常称为一个“阶段”(Stage )。
动态博弈中也可能存在几个博弈方同时选择的情况,这时博弈方的同时选择构成一个阶段。
一个动态博弈至少有两个阶段,因此动态博弈有时也称为“多阶段博弈”(Multistage Games )。
此外,也有把动态博弈称为“序列博弈”(Sequential Games )的,这也是由动态博弈中的次序特征引出来的。
设有一个商人要从A 地向B 地运输一批货物。
第3章 完全信息动态博弈假设博弈的标准表述为。
如果博弈的参与人集合{},全部参与人的策略空间和支付函数都是公共信息,则称G 为完全信息(Complete Information )博弈。
本章和第2章介绍的都是完全信息博弈。
{n n u u u S S S G ,,,;,,,2121L L =}n ,,2,1L n S S S ,,,21L n u u u ,,,21L 第2章介绍的是只有一个阶段的博弈,即全部参与人独立地选择策略,然后实现支付,这样博弈就结束了。
在本章介绍的动态博弈中,或者同一个参与人前后有多次决策,或者不同的参与人的决策有先后顺序。
完全信息动态博弈分类为完美信息博弈和不完美信息博弈。
下面我们仅就最简单的2参与人2阶段博弈描述完全和完美信息动态博弈的定义。
定义(完全和完美信息博弈):假设完全信息博弈的标准表述为{}2121,;,u u S S G =,博弈的行动顺序为:(1)参与人1选择可行策略11S s ∈;(2)参与人2观察到,然后选择可行策略11S s ∈22S s ∈; (3)参与人1和2实现支付()()212211,,,s s u s s u我们称这种博弈是完美信息(Perfect Information )博弈,因为决策有严格的先后顺序,而且参与人在每次决策之前,对自己和其他参与人以前的决策都有完整的记忆。
下面我们就上述2参与人2阶段博弈介绍求解动态博弈常用的倒推法(Backward Induction )。
在第(2)阶段,给定参与人1的策略11S s ∈,参与人2的最优策略反应为:()(){}222121*2:,max arg S s s s u s s ∈=在第(1)阶段,理性的参与人1可以准确地预测到参与人2的最优策略反应,于是参与人1的最优策略选择就是:()1*2s s ()[]{}111*211*1:,max arg S s s s s u s ∈= 这样在第(2)阶段,参与人2的最优策略就是:()*1*2*2s s s =这样得到的互为最优策略反应组合()()21*2*1,,S S s s ∈称为博弈G 的Nash 均衡,这种均衡也称为倒推法均衡(Backward Induction Outcome )。
1.工资和就业的决定假设工资水平w 和就业水平L 由工会和企业共同决定。
工会的效用函数为,u 是w 和L 的增函数,进一步假设工会的无差异曲线凸向原点。
厂商的利润函数为(L w u ,)()()wL L R L w −=,π其中,是收入函数,满足,()L R ()0'≥L R ()∞=0'R ,()0'=∞R ,进一步假设。
工资和就业的决定过程分为三个阶段:()0"<L R (1)工会提出工资要求w ;(2)企业观察到w 并且接受w ,然后决定就业量L ; (3)双方实现支付和()L w u ,()L w ,π,博弈结束。
在上述博弈的第2阶段,企业的规划问题为()(){}wL L R L w L L −=≥≥0max ,max π这个问题的一阶条件为()0'*=−w L R假设由一阶条件所决定的企业最优反应函数为()w L L *=,它是一个单调递减函数。
假设有两个工资水平,根据一阶条件21w w <()()2211''L R w w L R =<=因为,所以。
在第1阶段,工会能够估计到企业的最优反应函数为,于是工会的规划问题为()0"<L R 21L L >()w L L *=()[]w L w u w *0,max ≥这个问题的一阶条件为()[]()[]()[]()************,,,0dww dL w L w u L w L w u w w L w u w d ∂∂+∂∂== 于是在Nash 均衡()**,L w 条件下,企业的最优反应函数()w L L *=与工会的无差异曲线相切()()[]()[]()()**,*********,,L w u u dw w dL w L w u Lw L w u w dw w dL ==∂∂∂∂−= 上式的左端为企业最优反应函数的斜率,右端为工会无差异曲线的斜率。
但企业的等利润线在()**,L w 点上的斜率为()()()()()∞→−=∂∂∂∂−==*******,',,**w L R L L w LL w w dw w dL L w ππππ 如果以w 为纵坐标以L 为横坐标,企业的等利润线在()**,L w 点上的斜率就为0。
这个博弈的Nash 均衡()**,L w 不是Pareto 最优的。
假设Pareto 最优的工资和就业为()****,L w ,则工会的无差异曲线和企业的等利润线将在点()****,L w 处相切。
工会的无差异曲线和企业的等利润线在点()**,L w 处的斜率不相等,所以工会的无差异曲线和企业的等利润线在点()**,L w 处相交,所以Nash 均衡()**,L w 不是Pareto 最优的工资就业组合。
下面的第一个图描述了Nash 均衡()**,L w 条件下的工会无差异曲线和企业等利润线,图中的阴影区域是Pareto 改进的机会。
下面的第二个图描述了Pareto 最优的工资和就业组合,Pareto 最优的工资和就业路径应该是工会无差异曲线和企业等利润线的切点的连线。
Nash均衡Pareto最优的工资和就业路径2. 序贯的讨价还价参与人1和2就如何分不属于他们的1块钱进行讨价还价,用()t t s s −1,代表在第t 次讨价还价中参与人提出来的分配方案,s 代表参与人1获得的分额,s −1代表参与人2获得的分额。
考虑资金的时间价值,贴现因子为()1,0∈δ。
可以把贴现因子理解为r+=11δ 其中,r 为利息率。
贴现因子就是时期末的1块钱按利息率计算的时期初的现值。
讨价还价分三个阶段进行:(1a )参与人1提出分配方案()111,s s −; (1b )参与人2接受或者拒绝分配方案()111,s s −。
如果参与人2接受分配方案,则按照分配方案瓜分1块钱,博弈结束;如果参与人2拒绝分配方案,则博弈进入第2阶段。
()111,s s −()111,s s −(2a )参与人2提出分配方案()221,s s −;(2b )参与人1接受或者拒绝分配方案()221,s s −。
如果参与人1接受分配方案,则按照分配方案瓜分1块钱,博弈结束;如果参与人1拒绝分配方案(221,s s −))(221,s s −,则博弈进入第3阶段。
(3)两人按照一个外生给定的分配方案()s s −1,瓜分1块钱,博弈结束。
从上面的游戏规则可以看出,建议让对手拿小的份额,等价于让自己拿大的份额,最小化对手的支付等价于最大化自己的支付。
在博弈的(2a )阶段,参与人2知道如果参与人1不接受自己提出的方案,那么参与人1在第3阶段最多可以得到支付s ;第3阶段的s 在第2阶段的现值为(221,s s −)s δ,这就是能够让参与人1接受的最小分额。
于是参与人2提出的最优分配方案是()()s s s s δδ−=−1,1,*2*2。
整个博弈的倒推法最优策略可以用下表描述:阶段(t )建议方 最优分配方案建议()**1,t t s s −1 参与人1 ()()()()()s s s s s s δδδδδδ−−−=−=−1,11,11,*2*2*1*12参与人2()()()s s s s s s δδδδ−=−=−1,1,1,*3*3*2*23()()s s s s −=−1,1,*3*3我们还可以把前两阶段的博弈无限重复,内生地决定()s s −1,。
考虑把第3阶段的规则修改为:(3)重复步骤(1a )。
试想参加一个分配不属于自己的钱的博弈,对任何人来说都是有价值的。
在Nash 均衡的意义上,假设这样的博弈对于参与人1和2可以实现的价值为()**1,s s −。
对于参与人1来说,每次重复博弈的时候,博弈对于参与人1和2的价值为()**1,s s −;如果本轮博弈没有结束,到新一轮博弈开始的时候,博弈对于参与人1和2的价值还是()**1,s s −。
如果参与人1在步骤(1a )提出建议()()()()()*****1*11,1,111,s s s s s s −=−−−=−δδδδ上面第二个等号是根据上面的倒推法,如果参与人2不接受建议()()()**1,11s s δδδδ−−−,则在下一次博弈两人最多可以实现的价值为()**1,s s −,所以理性的参与人2肯定接受参与人1的建议。
根据第二个等号的两端,可以解出Nash 均衡的分配方案为()⎟⎠⎞⎜⎝⎛++=−δδδ1,111,**s s我们将通过下面的例子介绍不完美信息(Imperfect Information )博弈。
在不完美信息博弈中,某些参与人对其他参与人目前或者以前的决策没有完整的信息。
不完美信息博弈的一种常见情形,是在某个阶段某些参与人必须同时独立决策,在决定自己的策略选择之前,不可能观察到其他参与人在本阶段的策略选择。
不完美信息博弈的倒推法均衡称为子博弈精炼均衡(Subgame Perfect Outcome )。
3. 雇员间的竞争(Tournament )考虑一个雇主和两个雇员之间的博弈。
雇员2,1=i 的生产函数为i i i e y ε+= 其中,y 为以货币度量的产出,e 为雇员的努力程度,ε为独立同分布的噪声,ε的均值为零分布密度为()εf 。
对于雇主,雇员的产出y 可以观察,但雇员的努力程度e 不可观察。
雇员的支付为2,1=i ()()i i i i i e g w e w u −=,其中,w 是雇员获得的工资收入,()e g 是付出努力程度e 给雇员带来的负效用,假设和。
如果不受雇于目前的雇主,每个雇员都能够从其他地方获得工作机会,其他工作机会可以实现的最高效用为。
雇主的支付函数为()0'>e g ()0">e g a U L H w w y y −−+=21π 其中,w 是由雇主确定的工资水平,产出大的雇员获得工资H w w =,产出小的雇员获得工资,。
博弈的行动顺序为:L w w =H L w w ≤<0(1)雇主宣布雇员可以争取的工资水平;L H w w ,(2)雇员观察到,分别独立地决定努力程度;L H w w ,21,e e (3)雇员实现产出,雇主根据产出水平决定工资;雇主和雇员分别实现支付21,y y 21,w w 21,,u u π。
雇员获得高工资的概率为2,1=i H w ()()()()()()()[]()∫∫∞−∞=∞−∞=−+−=−+>=−+>=+>+=>==jjjj i j j jj j i j j i ij j i j j i i j i H i d f e e F d f e e P e e P e e P y y P w w P εεεεεεεεεεεεεε1其中,,第二个等号运用了连续概率空间的Bayes 公式。