您好,欢迎访问三七文档
当前位置:首页 > 商业/管理/HR > 企业财务 > 第二讲、完全信息静态博弈
第二讲、完全信息静态博弈完全信息静态博弈:纳什均衡纳什均衡是著名博弈论专家纳什(JohnNash)对博弈论的重要贡献之一。纳什在19世纪50年1951年的两篇重要论文中,在一般意义上给定了非合作博弈及其均衡解,并证明了解的存在性。正是纳什的这一贡献奠定了非合作博弈论的理论基础。纳什所定义的均衡称之谓“纳什均衡”。在现实中非合作的情况要比合作情况普遍。所以“纳什均衡”是对冯·诺依曼和摩根斯特恩的合作博弈理论的重大发展,甚至可以说是一场革命。一、占优策略均衡占优策略(dominantstrategies)是指这样一种特殊的博弈:某一参与人的策略可能并不依赖于其他参与人的策略选择。换句话说,无论其他参与人如何选择自己的策略,该参与人的最优策略选择是惟一的。(一)囚徒困境以博弈论中最为著名的囚犯困境(prisoner’sdilemma)为例,说明占优策略均衡原理。两个合伙作案的犯罪嫌疑人被警方抓获。警方怀疑他们作案,但警方手中并没有掌握他们作案的确凿证据。因而,对两个犯罪嫌疑人犯罪事实的认定及相应的量刑完全取决于他们自己的供认。假定警方对两名犯罪嫌疑人实行隔离关押,隔离审讯,每个犯罪嫌疑人都无法观察到对方的选择。同时,警方明确地分别告知两名犯罪嫌疑人,他们面临着以下几种后果可以用表2-1表示。该表又称为“收益矩阵或得益矩阵”。从表2-1中可以看出,每个犯罪嫌疑人都有两种可供选择的策略:供认或不供认。而且,每个犯罪嫌疑人选择的最优策略不依赖于其同伙的策略选择,表2-1囚犯困境的收益矩在博弈中,如果所有参与人都有占优策略存在,可以证明,博弈将在所有参与人的占优策略的基础上达到均衡,这种均衡称为占优策略均衡。上面提到的囚犯困境中的“A坦白,B坦白”就是占优策略均衡解。囚徒困境现实中的例子政治学例子:军备竞赛在政治学中,两国之间的军备竞赛可以用囚徒困境来描述。两国都可以声称有两种选择:增加军备(背叛)、或是达成削减武器协议(合作)。两国都无法肯定对方会遵守协议,因此两国最终会倾向增加军备。似乎自相矛盾的是,虽然增加军备会是两国的“理性”行为,但结果却显得“非理性”(例如会对经济造成都有损坏等)。这可视作遏制理论的推论,就是以强大的军事力量来遏制对方的进攻,以达到和平。经济学例子:关税战两个国家,在关税上可以有以两个选择:提高关税,以保护自己的商品。(背叛)与对方达成关税协定,降低关税以利各自商品流通。(合作)当一国因某些因素不遵守关税协定,独自提高关税(背叛),另一国也会作出同样反应(亦背叛),这就引发了关税战,两国的商品失去了对方的市场,对本身经济也造成损害(共同背叛的结果)。然后二国又重新达成关税协定。(重复博弈的结果是将发现共同合作利益最大。)商业例子:广告战商业活动中亦会出现各种囚徒困境例子。以广告竞争为例。两个公司互相竞争,二公司的广告互相影响,即一公司的广告较被顾客接受则会夺取对方的部分收入。但若二者同时期发出质量类似的广告,收入增加很少但成本增加。但若不提高广告质量,生意又会被对方夺走。此二公司可以有二选择:互相达成协议,减少广告的开支。(合作)增加广告开支,设法提升广告的质量,压倒对方。(背叛)若二公司不信任对方,无法合作,背叛成为支配性策略时,二公司将陷入广告战,而广告成本的增加损害了二公司的收益,这就是陷入囚徒困境。在现实中,要二互相竞争的公司达成合作协议是较为困难的,多数都会陷入囚徒困境中。金融例子:各国央行的囚徒困境抛出还是不抛出由于美国人经年累月的双赤字,即财政赤字和贸易赤字,美元下跌的趋势不可避免。那么这个困境中的博弈,其可能的结果如下。第一种情况是,如果各国中央银行都继续持有美元而不抛售,甚至增持美元,其结果是等着美元慢慢地下跌,这样的损失最小,就如同囚徒都不坦白只被判较轻的一年罪名一样。第二种情况是,如果一个国家中央银行能够悄悄地大量抛售美元,转持欧元、其他外汇或者黄金又不引起其他国家注意,而且其他国家也不抛售的话,那么它就可能在美元大跌之前得以脱身,从而损失很小,而其他国家则会遭受惨重损失。如同囚徒之一坦白从宽被无罪释放而另一人被重判10年一样。第三种情况是,大家都抛售,结果都造成惨重损失,两败俱伤。就像囚徒的两个人都坦白并都被判8年一样。在博弈的囚徒之间,最可能也是必然的结果就是,双方都争相坦白同时幻想着对方不坦白,因为如果对方坦白而自己不坦白自己就会面临最坏的局面。那么,在各国银行处理过剩美元盈余的策略中,究竟哪一种局面最可能发生呢?有最好的结果吗?第一种情况当然是最好的选择,只是不可能发生。尽管各国央行没有像囚徒般地被隔离,他们如果想订一个攻守同盟的话没有人能阻止他们,而且现在经济已经全球化,各国银行之间的协调是非常容易的事。但是每个国家都以本国利益为最高目的,无法做出对美元不抛售的协调,就像不能与虎谋皮一样,并且不会有任何一种协调结果会令所有人都满意的。第二种情况也不会发生,就像囚徒不能指望别人不坦白而自己坦白一样。没有人天真到会相信别人能替自己赔钱。在金融信息快到几分钟甚至几秒钟就可以从世界一端传递到另一端的情况下,各国中央银行不可能悄悄地将他们的美元储备抛出又不惊动他人。国际间的货币兑换其实都是透明的,一个国家的外汇储备从一种货币换作另一种货币的交易不可能隐藏到不被披露出来。最可能发生的是第三种情况,就是两败俱伤、几败俱伤的结局。因为每个美元储备过剩的国家都在想尽办法减少自己的储备而又不引起其他国家太多的关注。他们知道自己对美元大规模的抛售必定会引起其他国家的恐慌,引起连锁反应,造成其他国家对美元的大量抛售,就像多米诺骨牌一样,加速美元的崩溃,损失的是包括他们自己在内的所有美元持有人。所以他们每走一步都要看对方的动静,看市场的反应。金融囚徒困境的结论:各国央行正在玩“谁都不能先脚软”(areversegameofchicken)的游戏。他们虽然持有大量的美元储备,也明知道美元必定贬值。却相互监视,务求没有任何一个国家可以顺利抛售美元资产而得以脱身。就是说,若有任何一方胆敢抛售,其他人便会一起加入抛售,这样反而形成相互威吓,令各国央行都不敢擅自行动。但是各国央行能一直站下去而不脚软吗?囚徒困境模型的延伸罗伯特·阿克塞尔罗德在其著作《合作的进化》中,探索了经典囚徒困境情景的一个扩展,并把它称作“重复的囚徒困境”(IPD)。在这个博弈中,参与者必须反复地选择他们彼此相关的策略,并且记住他们以前的对抗。阿克塞尔罗德发现,采用“宽恕地以牙还牙”策略。当这些对抗被每个选择不同策略的参与者一再重复了很长时间之后,从利己的角度来判断,最终“贪婪”策略趋向于减少,而比较“利他”策略更多地被采用。他用这个博弈来说明,通过自然选择,一种利他行为的机制可能从最初纯粹的自私机制进化而来。通过分析高分策略,阿克塞尔罗德指定了策略获得成功的几个必要条件。友善最重要的条件是策略必须“友善”,这就是说,不要在对手背叛之前先背叛。几乎所有的高分策略都是友善的。因此,完全自私的策略仅仅出于自私的原因,也永远不会首先打击其对手。报复但是,阿克斯洛德主张,成功的策略必须不是一个盲目乐观者。要始终报复。一个非报复策略的例子是始终合作。这是一个非常糟糕的选择,因为“下流”策略将残酷地剥削这样的傻瓜。宽恕成功策略的另一个品质是必须要宽恕。虽然它们不报复,但是如果对手不继续背叛,它们会一再退却到合作。这停止了报复和反报复的长期进行,最大化了得分点数。不嫉妒最后一个品质是不嫉妒,就是说不去争取得到高于对手的分数(对于“友善”的策略来说这也是不可能的,也就是说“友善”的策略永远无法得到高于对手的分数)。因此,阿克塞尔罗德得到一种给人以乌托邦印象的结论,认为自私的个人为了其自私的利益会趋向友善、宽恕和不嫉妒。阿克塞尔罗德关于重复囚徒困境的研究的重要结论之一,是友善的家伙能先完成交易。囚犯困境反映了一个深刻问题,这就是个人理性与团体理性的冲突。例如,微观经济学的基本观点之一,是通过市场机制这只“看不见的手”,在人人追求自身利益最大化的基础上可以达到全社会资源的最优配置。囚犯困境对此提出了新的挑战。二、重复剔除的占优策略均衡在每个参与人都有占优策略的情况下,占优策略均衡是非常合乎逻辑的。但遗憾的是在绝大多数博弈中,占优策略均衡是不存在的。不过,在有些博弈中,我们仍然可以根据占优的逻辑找出均衡。智猪博弈(boxedpigs)是博弈论中的另一个著名的例子。假设猪圈里有两头猪,一头大猪,一头小猪,猪圈的一端有一个猪食槽,另一端安装了一个按钮,控制猪食的供应。按一下按钮,将有8个单位的猪食进入猪食槽,供两头猪食用。两头猪场面临选择的策略有两个:自己去按按钮或等待另一头猪去按按钮。如果某一头猪作出自己去按按钮的选择,它必须付出如下代价:第一,它需要收益相当于两个单位的成本;第二,由于猪食槽远离猪食,它将比另一头猪后到猪食槽,从而减少吃食的数量。假定:若大猪先到(小猪按按钮),大猪将吃到7个单位的猪食,小猪只能吃到1个单位的猪食;若小猪先到(大猪场按按钮),大猪和小猪各吃到4个单位的猪食;若两头猪都选择等待,实际上两头猪都吃不到猪食,如两猪同时按,则大猪吃到5个单位的猪食,小猪吃到3个单位的猪食。智猪博弈的收益矩阵如表2-2所示。表中的数字表示不同选择下每头猪所能吃到的猪食数量减去按按钮的成本之后的净收益水平。从表2-2中不难看出,在这个博弈中,不论大猪场选择什么策略,小猪的占优策略均为等待。而对大猪来说,它的选择就不是如此简单了。大猪场的最优策略必须依赖于小猪的选择。如果小猪选择等待,大猪的最优策略是按按钮,这是,大猪能得到个单位的净收益(吃到4个单位猪食减去2个单位的按按钮成本),否则,大猪的净收益为0;如果小猪选择按按钮,大猪的最优策略显然是等待,这时大猪的净收益为7个单位。换句话说,在这个博弈中,只有小猪有占优策略,而大猪没有占优策略。那么这个博弈的均衡解是什么呢?这个博弈的均衡解是大猪选择按按钮,小猪选择等待,这是,大猪和小猪的净收益水平分别为2个单位和4个单位。这是一个“多劳不多得,少劳不少得”的均衡。在找出上述智猪博弈的均衡解时,我们实际上是按照“重复剔除严格劣策略”(iteratedeliminationofstrictlydominatedstrategies)的逻辑思路进行的。该思路可以归纳如下:首先找出某参与人的严格劣策略,将它剔除,重新构造一个不包括已剔除策略的新博弈;然后,继续剔除这个新的博弈中某一参与人的严格劣策略;重复进行这一过程,直到剩下惟一的参与人策略组合为止。剩下的话这个惟一的参与人组合,就是这个博弈的均衡解,称为“重复剔除的占有策略均衡”(iterateddominanceequilibrium)。所谓“严格劣策略”(strictlydominatedstrategies)是指:在博弈中,不论其他参与人采取什么策略,某一参与人可能采取的策略中,对自己严格不利的策略。由表2-2可以看出,无论大猪选择什么策略,小猪选择按按钮,对小猪是一个严格劣策略,我们首先加以剔除。在剔除小猪按按钮这一选择后的新博弈中,小猪只有等待一个选择,而大猪则有两个可供选择的策略。在大猪这两个可供选择的策略中,选择等待对大猪是一个严格劣策略,我们再剔除新博弈中大猪的严格劣策略等待。剩下的新博弈中只有小猪等待、大猪按按钮这一个可供选择的策略,就是智猪博弈的最后均衡解,从而达到重复剔除的占优策略均衡。智猪博弈的现实例子智猪博弈听起来似乎有些滑稽,但智猪博弈的例子在现实中确有很多。例一、股市上等待庄家抬轿的散户、等待产业市场中出现具有赢利能力新产品、继而大举仿制牟取暴利的游资,公司里不创造效益但分享成果的人例二在股份公司中,股东都承担着监督经理的职能,但是,大小股东从监督中获得的收益大小不一样。在监督成本相同相同的情况下,大股东从监督中获得的收益明显大于小股东。因此,小股东往往不会象大股东那样去监督经理人员,而大股东也明确无误地知道小股东会选择不监督(这是小股东的占优策略),大股东明知道小股东要搭大股东的便车,但是大股东别无选择。
本文标题:第二讲、完全信息静态博弈
链接地址:https://www.777doc.com/doc-4075806 .html