您好,欢迎访问三七文档
当前位置:首页 > 商业/管理/HR > 企业财务 > [经济学]博弈论第六章--重复博弈
第六章重复博弈和策略性行动本章主要考察重复博弈是如何进行的,如何计算重复博弈的支付,以及如何寻找重复博弈的纳什均衡。主要内容1、囚徒困境的有限次重复2、囚徒困境的无限次重复3、重复次数不确定的情形4、策略型行动的分类5、承诺及其可信性6、重复博弈的运用为什么研究重复博弈在囚徒困境中,重复博弈是一种促使局中人采用合作策略的机制。因为,局中人担心一次不合作会招致未来合作机会的丧失。如果未来合作的价值很大,超过采取背叛策略所能获得的短期收益,则双方会出于长远利益的考虑,形成非契约的默契,使彼此都从默契的非契约合约中得到好处。重复博弈产生“道德感”有一群猴子被关在笼子里,从笼子上方垂下一条绳子,绳子的末端栓着一个香蕉,上端连着一个机关,机关可以开启水源。猴子们发现了香蕉,纷纷跳上去够这个香蕉,当猴子够着香蕉时,相连的绳子带动了机关,于是一盆水倒了下来,尽管够到香蕉的猴子吃到了香蕉,但是大多数的猴子都被淋湿了。这个过程重复着,猴子们发现,吃到香蕉的猴子是少数,其余的猴子都被淋湿了。于是,每当有猴子去以香蕉时,其它的猴子主动地去撕咬那个猴子,久而久之,猴子们产生了默契,再也没有猴子敢去取香蕉了。一、重复博弈的概念重复博弈是一种特殊的动态博弈,它是指同样结构的博弈重复多次。其中的每一次博弈称为“阶段博弈”。局中人可以根据先前双方的博弈行为,决定自己下一阶段的策略选择。三项基本特征:(1)阶段博弈之间没有“物质上”的联系,也就是说,前一阶段的博弈不改变后一阶段博弈的结构;(2)所有参与人都观测到博弈过去的历史;(3)参与人的总支付是所有阶段博弈支付的贴现值之和或加权平均值。二、影响结果的主要因素(1)重复次数。其重要性来自于参与人在短期利益与长期利用之间的权衡。当博弈只进行一次时,每个参与人可能只关心一次性的支付;但如果博弈重复多次,参与人可能会为了长远利益而牺牲眼前利益,从而选择不同的均衡策略。—这是重复博弈分析给出的一个强有力的结果,它为现实中观测到的许多合作行为和社会规范提供了解释。(2)信息完备性。退一步讲,即便一个参与人的支付函数(特征)不为其他参与人所知时,该参与人可能有积极性建立一个“好声誉”以换取长远利益。这一点或许可以解释为什么那些本质并不好的人在相当长的时间内干好事。即使在不完全信息的情况下,如果博弈重复无穷多次,均衡结果也可能大大不同于一次性博弈。一种威胁策略,即使在一次博弈中是不可置信的,在无限次重复博弈中却可能是值得置信的,因为在后一种情况下,当事人考虑的所有未来收益的贴现值之和,而不是一次性收益。如果施行威胁带来的贴现值之和大于不施行威胁的贴现值之和,威胁就是可置信的。第一节囚徒困境的有限次重复假如两个企业垄断了一种商品市场,他们之间的博弈如图所示。假定开始的时候两家企业彼此合作,双方都实行高价。假如一个星期后乙背叛合作采取低价,他的利润将从5万增加到6万。但甲企业看到后也将采取低价,从此双方的利润各为3万。即乙企业在背叛的当周获得了1万利润的增加,但往后的每个星期都以损失2万为代价。博弈的结果?3,36,11,65,5企业乙低价高价企业甲低价高价有限次重复博弈的定义有限次重复博弈:给定一个基本博弈G(可以是静态博弈,也可以是动态博弈),重复进行T次G,并且在每次重复G之前各博弈方都能观察到以前博弈的结果,这样的博弈过程称为“G的T次重复博弈”,记为G(T)。而G则称为G(T)的“原博弈”。G(T)中的每次重复称为G(T)的一个“阶段”。有限次重复博弈的结果假如该企业之间的合作关系只有两次,博弈的结果?利用倒推法.在第二阶段中,双方都意识到这是最后一次合作,即以后没有合作关系了,即没有损失“2万”的代价了,因此,双方都会背叛合作以获得1万元好处。在第一阶段中,双方想到下个阶段对方会背叛自己,因此想:自己在这个阶段背叛可能获得1万元的好处,因此,双方在第一个阶段就都会采取低价。博弈的结果和一次囚徒困境博弈的结果一样。有限次重复博弈的结果由此表明,如果纳什均衡是唯一的,只要博弈的重复次数有限,重复本身不改变均衡的结果。如果纳什均衡不是唯一的,上述结论就不一定成立。导致这个结果的原因是,当阶段博弈有多个纳什均衡时,参与人可以使用不同的纳什均衡惩罚第一阶段的不合作行为或奖励第一阶段的合作行为。第二节囚徒困境的无限次重复博弈重复无穷多次而不是有限次时,存在着完全不同于一次博弈的子博弈精炼纳什均衡。在任何博弈中,局中人会根据前一阶段双方是否合作,决定自己下一阶段的策略是选择合作还是背叛。——依存策略(或称之为相机策略)。大多数依存策略是触发策略:即只要他的对手在博弈中一直采取合作策略,则该局中人也会在博弈中继续采取合作策略;但是,一旦对手在某一个阶段采取背叛策略,将会触发该局中人在往后的一段时期内采取不合作策略,甚至永远采取不合作策略,从而对对手实施惩罚。触发策略两个最著名的触发策略:冷酷策略和礼尚往来策略。触发策略包含着威胁和惩罚,但惩罚的力度有所不同。冷酷策略:双方一开始的时候选择合作,然后继续选择合作,知道有一方选择背叛,从此永远选择背叛。即任何局中人的一次性不合作将触发永远不合作。礼尚往来策略:开始的时候和冷酷策略一样,即双方从合作开始,在以后的每个阶段,如果你的对手在最近的一次或连续K次博弈中采取合作策略,则你继续跟他合作;如果你的对手在上一阶段的博弈中采取背叛策略,则你在下次的博弈中背叛他,或者连续K次背叛他。礼尚往来策略惩罚一次的礼尚往来策略,叫做严格礼尚往来策略:即你对我好我也对你好,你对我坏我马上也对你坏,“以牙还牙”、“针锋相对”。它“不记仇”。礼尚往来策略的结果分析假如在前面那个案例中,企业乙背叛了一个星期后,突然又“改邪归正”,选择继续合作,则选择合作的这个星期,利润只有1万,因为此时,甲企业为了惩罚他的上次背叛使用了低价策略,因此,这次背叛的收益是1万(在背叛的那个星期获得的),背叛的成本是损失了4万(在背叛后接下来的一个星期发生的),那么他这次背叛是否值得呢?应该比较:1和4/(1+r)R为投资收益率,用4除以1+r相当于计算4的现值。如果14/(1+r),这次背叛就值了,但需要r3,即投资的周收益率超过300%。假如乙企业永远背叛下去如果乙企业永远背叛下去,则他除了在背叛的这个星期多获得了1万的利润以后,以后每个星期都将损失2万元。因此,企业乙考虑背叛值不值得,需要比较:1和r表示投资收益率,1/(1+r)称为折现因子。当12/r时,即周收益率r200%时,乙选择永远背叛下去才是值得的。而这种情况几乎是不太可能的.因此,当双方都实行礼尚往来策略时,双方是不会背叛对方的.这样礼尚往来策略就解决了囚徒困境的难题了!432)1(2)1(2)1(212rrrr“以牙还牙,以眼还眼”一天半夜,某教授正在熟睡,电话响了,他睡眼惺忪地拿起电话,听筒里传来女邻居的怒气冲冲的声音:“麻烦你管好你的狗,不要让它叫了!”说完电话就挂了,教授也很生气,因为他根本没有养狗!第二天他定好闹钟,半夜二点半,起来打电话给邻居,彬彬有礼有礼地说:“夫人,我昨天忘记告诉你了,我们家没有养狗。”我们预测一下,以后邻居遇到这样的问题,还会不会再深夜里打电话给教授了呢?她知道她如果还是这样做,作为反击,教授肯定会第二天深夜给她电话。因此,她应该不会再在深夜给教授打电话了,而采用这种针锋相对策略的教授肯定也不会深夜打电话给邻居告诉她一些自己上回忘记说的事情了!上面的故事告诉我们,在没有法规和首先约束,也没有其他力量从外部对双方进行强制时,对自己最有利的一种策略是“以牙还牙,以眼还眼”、“一报还一报”。爱克斯罗德实验证明:采用针锋相对策略的小组收益总是排名第一!讨论获得幸福爱情的博弈原则不过现实中,礼尚往来策略的缺陷是:只要有一丁点儿的发生误解的可能性,礼尚往来策略的优势就会土崩瓦解。因为只要一次出错,一方就会惩罚另一方的背叛行为,由合作改为背叛策略,背叛改为合作;而原来背叛方就由背叛改为合作,继而又由合作改为背叛,从而引发连锁反应,一直都是你合作我就正好背叛,我合作你就正好背叛,即惩罚和报复会“自动”低永久持续下去。例如巴基斯坦和以色列的冲突。冷酷策略分析考虑囚徒困境博弈。假定博弈重复无穷次,(抵赖,抵赖)是一个子博弈精炼纳什均衡结果。-8,-80,-10-10,0-1,-1囚徒2坦白抵赖囚徒1坦白抵赖考虑下列所谓的“冷酷策略”:(1)开始选择抵赖;(2)选择抵赖直到有一方选择了坦白,然后永远选择坦白。因为任何参与人的一次性不合作将触发永远的不合作。我们证明冷酷策略是一个纳什均衡。如果给定j没有选择坦白,I将不会选择坦白:)1()1(1)8()8(022为折现因子就是说,给定j坚持冷酷策略并且没有首先坦白,I不会选择首先坦白。或:1118解得81*如果即,参与人有足够的耐性。冷酷策略是无限次囚徒博弈的一个子博弈精炼纳什均衡,帕累托(抵赖,抵赖)是每个囚徒的均衡结果,囚徒走出一次性博弈困境。81*隐藏在结果背后的原因如果博弈重复无穷次且足够的耐心,任何短期的机会主义行为的所得都是微不足道的;参与人有积极性为自己建立一个乐于合作的声誉,同时也有积极性惩罚对方机会主义行为。如果两个企业在市场上只相遇一次,库诺特均衡是唯一的纳什均衡。但如果博弈重复无限次,某种形式的默契合谋就可能作为均衡结果出现。考虑“冷酷策略”:首先选择垄断产量,直到有一个企业打破,采取斯坦克尔伯格博弈中的产量“先动优势”,然后永远选择这一种。扩展此模型可以解释:为什么小团体的合作靠非正式的规则就可以维持,而大团体就必须依赖正式的规则和合约。回到囚徒困境:干坏事的合伙人越多,事情越容易败露。第三节重复次数不确定的情形局中人并不确切地知道博弈究竟会持续多长时间,但他们对博弈能否多维持一个时期或者多重复一次形成一定的概率判断。例如,甲乙两个企业都是生产电视机的企业,他们会认为如果消费者对电视有需求,则他们之间的重复博弈就会持续,但如果消费者不需要再购买电视,他们之间的博弈将会发生根本性的改变。因此,下次是否会重复博弈存在不确定性,这种不确定性可以用概率P表示。投资的有效收益率假如下一阶段的博弈是否发生的不确定性由P表示,投资的有效收益率将由贴现因子和发生的概率决定。投资的有效收益率是指在引入不确定性这个因素后,投资者的预期收益率。因为下一期博弈发生的概率为P(0P1),贴现因子下一期的支付折算到今天,不仅需要乘以贴现因子,还要乘以它发生的概率,即要用因子Pδ而不是单因子δ来折现未来的支付。PRPR11,11举例假如投资收益率为10%(即r=0.1,从而δ=1/1.1=0.91),并且博弈在持续一期的概率为35%(即P=0.35),那么投资的有效收益率为:14.2191.035.01R在前面礼尚往来例子中,假如甲坚持采用礼尚往来策略,只有当投资收益率大于200%时,乙采用永久性背叛策略就是值得的。但是如果乙面临10%的投资收益率以及博弈再多维持一期的概率是0.35时,有效收益率为214%,超过了200%的临界值。因此,如果重复博弈有足够高的概率在一阶段结束,也就是P足够小,则通过礼尚往来策略支持的合作会由于局中人的背叛而结束。囚徒困境的一般形式C表示双方合作时各自得到的支付,D表示双方都采取背叛策略时各自得到的支付,H表示当一个局中人采取背叛策略而另一个局中人采取合作策略时背叛者所得到的支付,L表示同一情形下合作者所得到的支付。D,DH,LL,HC,C乙背叛合作甲背叛合作一期背叛在该博弈中,一个局中人采取背叛策略所得到的一次性收入为H-C,背叛者重新采取合作策略时需要经过一个惩罚期,在惩罚期内所遭受的损失为C-L,背叛者采取永久性背叛策略时每期的损失为C-D。假如博弈在下一期继续的可能性为P(0P1),并且每个时期都使用有效
本文标题:[经济学]博弈论第六章--重复博弈
链接地址:https://www.777doc.com/doc-2175786 .html