第三章-完全信息动态博弈

“同时”是一个信息概念,而不是一个时间概念。一、动态博弈与静态博弈的区别静态博弈：所有局中人同时行动；或行动虽有先后，但没有人在自己行动之前观测到别人的行动。动态博弈：局中人分先后行动；后行动者的决策依赖于先行动者，先行动者的决策要考虑对后行动者的影响；动态博弈例子：下棋；商业大战，各商家轮流出新招；商业谈判、讨价还价；§1动态博弈及其表示第三章完全信息动态博弈二、静态博弈的Nash均衡的缺陷（1）可能存在多个解，如何选择？（2）Nash均衡，不考虑自己的选择如何影响对手的策略。但事实上，有些问题局中人行动有先后：一人行动在先，另一人在后，则后者会根据前者的行动调整自己的策略，而前者自然会理性的预期到这一点，故不可能不考虑自己的选择如何影响对手的策略。（3）Nash均衡允许了不可置信威胁的存在。例如，姑娘、小伙子谈对象，女方父亲不同意的“断绝父女关系”的威胁。例：市场进入阻挠一个垄断企业已在市场上（称为“在位者”），另一个企业虎视眈眈想进入（称为“进入者”）。若按静态博弈分析方法：1，101，10不进入-2，35，5进入进入者斗争默许在位者思考：若进入者真的进入，在位者的最优行动是“默许”。所以“斗争”是一种不可置信的威胁（即使在位企业摆出一副“你进入我就斗争”的架势，进入企业不应被吓到）。而静态博弈承认这种不可置信的威胁，使（不进入，斗争）成为一个Nash均衡。动态博弈解决方案：剔除不可置信的威胁策略扩展阅读：不可置信的威胁策略引出信息经济学重要的概念——承诺行动(Commitment)。承诺行动使不可置信威胁可信威胁，否则，当事人将为自己的“失信”付出成本。例如，该例中，在位者与某第三者打赌，如果进入者进入后他不斗争，他就付给后者3，这时，斗争成为可置信的威胁。因为如果进入后，选择默许，收益更小。注意：有了这个赌，进入者就不敢进入了，实际上，在位者无需支付赌注。承诺行动在军事博弈中有广泛应用。例如，项羽的“破釜沉舟”、韩信赵国之战，“置之死地而后生”。进入者在位者默许斗争进入不进入5，5-2，31，101，10例房地产开发博弈有两个房地产开发商（分别为局中人1,记为A和局中人2,记为B）在某地开发房地产,(1)开发商1先行动,选择开发或不开发;(2)开发商2在观测到1的决策和市场的需求后,再决定开发或不开发。三、动态博弈的相关概念（1）行动（actions）：局中人在博弈的某个时间点的决策变量。记为ai。Ai={ai}表示局中人i的行动集合。•n个局中人的行动的有序组a={ai,…,an}称为行动组合。•与行动相关的一个重要问题是行动顺序。同样的局中人，同样的行动集合，行动顺序不同，博弈的结果就不同。三、动态博弈的相关概念（2）信息（information）：局中人有关博弈的知识，特别是有关“自然”的选择、其他局中人的特征和行动的知识。•信息集：一个局中人无法准确知道的变量的全体。例如，已知某市场自然状态有“大”和“小”两种可能。如果A不知道市场需求是大还是小，而B知道；那么，A的信息集为{大，小}，而B的信息集为{大}或{小}。又如，上例中，如果进入者先行动，而在位者在行动前能准确知道前者的行动，那么在位者的信息集为{进入}或{不进入}。反之，若在位者先行动，则在位者的信息集为{进入，不进入}。三、动态博弈的相关概念（3）•完美信息（Perfectinformation）：一个局中人在行动时，对之前博弈进程有准确了解，即每一个信息集只包含一个值，则称该局中人具有完美信息。•如果动态博弈的所有局中人都有完美信息，则称为完美信息的动态博弈。•如果动态博弈中，存在部分局中人具有不完美信息，称为不完美信息的动态博弈。注：若所有局中人都只有一次性行为选择，且都具有不完美信息，则可看成静态博弈。•完全信息（Completeinformation）：各局中人都完全了解所有局中人各种情况下得益，称为完全信息博弈。•否则，至少部分局中人不完全了解其他局中人得益情况，称为不完全信息博弈（非对称信息）。三、动态博弈的相关概念（4）策略（strategy）：局中人在给定信息集情况下的行动规则，它规定局中人在何时选择合行动。房地产开发例中，如果A先行动，B后行动，则A有两个策略SA={开发，不开发}，B有四个策略SB={（开发，开发）,（开发，不开发）,（不开发，开发），（不开发，不开发）}，其中每个策略（x,y)中的x表示A选择“开发”时，B的行动；y表示A选择“不开发”时，B的行动。注：静态博弈中，策略和行动是相同的。动态博弈中，二者不同：策略是行动的规则，而非行动本身。例如，房地产开发中，“开发”和“不开发”是两种行动，而策略要说明什么时候采取什么行动。再如“人不犯我我不犯人，人若犯我我必犯人”是一种策略，而行动只有“犯”和“不犯”。四、动态博弈的扩展式表达动态博弈的扩展式表达的要素：⑴局中人的集合,记为i=1,2,…,n;⑵行动的次序,即谁在什么时候行动;⑶局中人的行动空间,即轮到某局中人行动时,他从该时刻的纯策略空间中选取什么策略;⑷当局中人作出他们的行动决策时,他所观测到或他所了解到的信息,即他在此时获得的信息集合;⑸局中人的得益(支付或效用),它们是已知行动的函数;⑹外生事件（即自然的选择）的概率分布。（完全信息条件下，无需该要素。）回顾：静态博弈的“策略式”表达，包括三个要素：局中人、策略集、赢得函数。动态博弈在此基础上，需扩充行动时间点、历史信息等要素。动态博弈的扩展式表达——博弈树博弈树的优点：⑴可描述多人对策问题（赢得矩阵只能表示二人对策）;⑵便于描述行动的次序;博弈树的缺点：只能描述有限策略集对策。例如：市场进入阻挠问题ABB进入不进入默许斗争(5,5)(-2,3)默许斗争进入不进入5，5-2，31，101，10(1,10)例房地产开发博弈有两个房地产开发商(分别为A和B)在某地开发房地产,(1)开发商A先行动,选择开发或不开发;(2)开发商B在观测到A的决策后,再决定开发或不开发。博弈树如下图。ABB开不开不开不(-3,-3)(1,0)(0,1)(0,0)注：所有n个局中人的一个纯策略组合决定了博弈树上的一条路径。但每条路径可由不同的策略组合决定。例如，（开发,(不开发,开发)）决定了A-开发-B-不开发-(1,0)该路径还可由（开发,(不开发,不开发)）决定。事实上，该问题共有4条路径，8种策略组合。对于动态博弈，Nash均衡可能并不是一个合理的预测。如房地产博弈:ABB开不开不开不(-3,-3)(1,0)(0,1)(0,0)的策略式表示为:(开,开)(开,不)(不,开)(不,不)开-3,-3-3,-31,01,0不0,10,00,10,0局中人B局中人A§2子博弈精炼纳什均衡由划线法法可得三个纯策略Nash均衡:ABB开不开不开不(-3,-3)(1,0)(0,1)(0,0)(开,开)(开,不)(不,开)(不,不)开-3,-3-3,-31,01,0不0,10,00,10,0参与人B参与人A但①（不开发,(开发，开发)）是不合理的,这个威胁是不可置信的;②（开发,(不开发,不开发)）也不合理,因为若A不开发,B显然应该开发;只有（开发,(不开发,开发)）是一个合理的均衡。有子博弈Ⅰ:和子博弈Ⅱ:ABB开不开不开不XX′Bx开不BX′开不例房地产博弈一、子博弈的定义给定历史，从每一个行动选择开始至博弈结束又构成一个博弈，称为子博弈。二、子博弈精炼纳什均衡定义扩展式博弈的策略组合s*=(s1*,…,si*,…,sn*)是一个子博弈精炼Nash均衡,如果满足:(1)它是原博弈的Nash均衡;(2)它在每一个子博弈上给出Nash均衡。房地产开发中，子博弈I和Ⅱ属于单人博弈，子博弈I中，B的最优选择是不开发，子博弈Ⅱ中，B的最优选择是开发，因此：（1）（不开发,(开发，开发)）在子博弈I上不构成Nash均衡；（2）（开发,(不开发,不开发)）在子博弈Ⅱ上不构成Nash均衡；（3）（开发,(不开发,开发)）在所有子博弈上都构成Nash均衡，是子博弈精炼Nash均衡。ABB开不开不开不(-3,-3)(1,0)(0,1)(0,0)IⅡ例(Selten)12(2,2)(3,1)(0,0)UDLRLRU2,22,2D3,10,0该博弈有两个Nash均衡：（U，R）和（D，L)但Nash均衡(U,R)从动态博弈的观点来看是不合理的,因为它依赖于局中人2取R这一“空头威胁”。三、逆向归纳法求解子博弈精炼Nash均衡•从动态博弈的最后一个阶段局中人的行为开始分析，逐步倒推回前一个阶段相应局中人的行为选择，一直到第一个阶段。•逆推归纳到某个阶段，可以用不包括该阶段与其后所有阶段博弈的等价博弈来简化原博弈。•逆向归纳法是动态博弈分析最重要、基本的方法。例：用逆向归纳法，求解房地产开发问题，可得（开发,(不开发,开发)）子博弈精炼Nash均衡。例用逆向归纳法求下列博弈的子博弈精炼Nash均衡：1221LRABCDEF(2,0)(1,1)(0,1/2)(3,1)(2,2)h1h1′h2h2′解为{(R,E),D}经典的动态博弈模型——Stackelberg寡头竞争模型该模型可以看作是子博弈精炼Nash均衡的最早版本。其中企业1(称为领头企业)先选择产量q1∈Q1=[0,∞),企业2(称为尾随企业)观测到q1后选择自己的产量q2∈Q2=[0,∞)。企业1的策略：选择产量q1；企业2的策略：从Q1到Q2一个函数:S2:Q1→Q2；均衡结果：产出向量(q1,s2(q1))；支付函数:ui(q1,s2(q1))。由于产量是一个连续变量,故不能作出博弈树。假定逆需求函数为P(Q)=a－q1－q2,两个企业有相同的不变单位成本c≥0,则利润函数为:πi(q1,q2)=qi(P－c),i=1,2。可用逆向归纳法求解这个博弈的子博弈精炼Nash均衡。假定q1已经选定,企业2的问题是:maxπ2(q1,q2)=q2(a－q1－q2－c)最优化一阶条件为:s2(q1)=0.5(a－q1－c)因为企业1预测到企业2将根据s2(q1)选择q2,企业1在第一阶段的问题是:Maxπ1(q1,s2(q1))=q1(a－q1－s2(q1)－c)解一阶条件得:q1*=0.5(a－c)将q1*代入s2(q1)得:q2*=s2(q1*)=0.25(a－c).(企业1有先动优势)与古诺模型的结果对比：古诺模型:q1*=q2*=1/3(a－c);π1*=π2*=1/9(a－c)2;总利润：π*=2/9(a－c)2Stackelberg模型：q1*=0.5(a－c),π1*=1/8(a－c)2;q2*=0.25(a－c),π2*=1/16(a－c)2;总利润：π*=3/16(a－c)2合作情形：总产量Q*=0.5(a－c)；总利润：π*=1/4(a－c)2说明：(1)Stackelberg模型总产量大于古诺模型，价格低于古诺模型，总利润小于古诺模型（对消费者有利）。合作情形总利润最大。（对消费者不利。）（2）企业1有先动优势，企业1利润古诺利润企业2利润。这说明，在信息不对称的博弈中，信息较多的局中人不一定能得到较多的利益。练习：两个寡头企业进行价格竞争博弈，企业1的利润函数是π1=-(p－aq+c)2+q，企业2的利润函数是π2=-(q－b)2+p；其中p是企业1的价格，q是企业2的价格。求：（1）两个企业同时决策的Nash均衡；（2）企业1先决策的子博弈精练Nash均衡；（3）企业2先决策的子博弈精练Nash均衡；（4）是否存在参数a、b、c的范围，使两个企业都希望自己先决策？一、重复博弈的相关基本概念（1）定义：相同结构的博弈G重复多次，且在每次重复G之前，所有局中人都能观测到以前的结果（即历史），称为重复博弈。其中的每次博弈称为“阶段博弈”。在每个阶段博弈，可以是静态博弈，也可是动态博弈。（2）为什么要研究重复博弈人们之间的长期关系与短期关系之间有重要的性质差别,人们在对待与其有长期关系的人与对待那些以后不再交往的人可能会有非常不同的行为。重复博弈中，局中人

第三章-完全信息动态博弈

免费阅读已结束，点击付费阅读剩下 ... 页

阅读已结束，您可以下载文档离线阅读

常见有毒有害气态污染物的净化

电子商务环境下的书业物流研究

服装面料基础知识培训

XXXX最新装饰装修手册(精品)

财政与金融考试题(1)

10G数控技术专业毕业设计完成

汽车安全运行与牛顿运动定律

常用汉字代码表

公务员笔试法律速成--合同法

并购中小型高科技企业的风险管理（PDF42页）

相关文档

相关搜索