您好,欢迎访问三七文档
当前位置:首页 > 商业/管理/HR > 企业财务 > 张维迎《博弈论与信息经济学》-第12章-演进博弈与自发秩序
第12章演进博弈与自发秩序张维迎北京大学光华管理学院理性与经验•传统博弈理论:每个人都是理性的,并且理性和博弈结构的共同知识;每个人都在选择战略最大化自己的利益;只要知道博弈的结构,就可以预测均衡结果;•但其他社会科学家一直对理性人假设抱有怀疑.进化博弈•JohnMaynardSmithandGPrice,1973;MaynardSmith,1982,EvolutionandtheTheoryofGames,CUP;•生物博弈是基因之间的博弈;•生物行为(战略)是由基因(genes)决定的;基因的生存和繁殖由自然选择决定;最适合生存的基因不断繁衍,而不适合生存的基因被淘汰;生物进化是一个自然选择的过程;最后可能导致一个稳定状态.演化稳定战略•ESS:evolutionarystablestrategies:•种群中可以持续存在的行为方式;•静态:一个特定的行为方式被称为是演化稳定的,如果它的种群不能被变异所成功侵入;或者说,任何偏离行为的个体具有更低的生存能力,种群将会恢复到原来的状态;•动态:假定初始状态存在多样的行为方式,随着时间的推移,如果某个特定的行为方式能逐步主导整个种群,这个特定的行为方式就是ESS;ESS与纳什均衡•ESS一定是纳什均衡,但并非所有的纳什均衡都是ESS;•演化过程可以帮助选择特定的纳什均衡;生物进化与社会演进•战略:–生物行为是基因决定的,个人没有选择性;–社会行为并不完全取决于基因,而是与社会环境、文化、教育、以及个体的经验等因素等有关;个体有选择性•适应性(fitness):基因的繁殖能力;总的或平均的报酬(payoff);•传递:基因遗传;成功的人将信息传输给朋友、同事;好的行为方式会被学习、模仿;人们也会有意识地通过“试错”的办法寻找好的战略;所以社会和教育机制更为重要;单元均衡与多元均衡•演化稳定状态可能只有一个战略(行为方式),也可能包含多个具有同样适应性的行为方式;•前者称为单元均衡(monomorphicequilibrium);•后者称为多元均衡(polymorphicequilibrium).协调博弈:左撇子与右撇子•设想总人口中有两类人:一类人是左撇子;另一类人是右撇子;•任意挑选其中的一对进行博弈;•支付矩阵如下图所示;•注意:战略是先天决定的,参与者并不在两种战略之间选择。左撇子与右撇子左撇子右撇子左撇子右撇子1,10,00,01,1谁最适合生存?•答案依赖与初始的人口分布。直观。•假定总人口中有x的比例是左撇子,1-x的比例是右撇子。那么,左撇子的预期支付为:x1+(1-x)0=x;•右撇子的预期支付:x0+(1-x)1=1-x;•x(1-x)x1/2三个均衡•如果x1/2,左撇子更具生存能力,他们的比例将增加,直到100%;单元均衡;•如果x1/2,右撇子更具有生存能力,他们的比例将增加,直到100%;单元均衡;•如果x=1/2,两类人的生存能力相同;二元均衡。•但只有前两个均衡是ESS;单元均衡。图示110X=11/2生存能力右撇子左撇子与理性人博弈比较•如果战略是理性人选择的结果,这个博弈也有三个均衡:(左撇子,左撇子);(右撇子,右撇子);(1/2左,1/2右);•所以,并非所有的纳什均衡都是演化稳定均衡;•但与“混合战略均衡”解释不同:每个人都是纯战略,只是一半人用左手,另一半人用右手;•演化稳定性为选择特定的纳什均衡提供了新的依据;•演化稳定单元均衡:战略是对自身的最优反应(reply).父母怎样教育孩子?•一旦使用右手成为主导习惯,少数左撇子并不能改变结果;•所以为了孩子的利益,父母会教育孩子用右手;•用手的习惯既有基因的遗传,也有后天的训练。•这可能是社会行为的典型特征。交通博弈靠左行靠右行靠左行靠右行1,1-1,-1-1,-11,1协调博弈:婚姻物质型感情型物质型感情型1,10,00,02,2谁将生存?•假定总人口中,物质型的比例为x,感情型的比例为(1-x);•那么,对任何一个个体而言,物质型的预期支付:x1+(1-x)0=x;•感情型的预期支付:x0+(1-x)2=2(1-x);•x=2/3均衡•如果x2/3,物质型更适合生存,将演化成稳定均衡;•如果x2/3,感情型更适合生存,将演化成稳定均衡;•如果x=2/3,两类人有同样的适应性,但这一(二元)均衡是非稳定的;•演化均衡不一定是帕累托最优均衡。图示210X=12/3生存能力感情型物质型婚姻的习俗•找对象的主流模式影响个体的行为;物质主义盛行的社会,任何人都难以不随波逐流;•门当户对;•信息与感情型:即使物质型大于2/3,感情型也可能生存下来。锁定与路径依赖•演化均衡意味着技术、社会制度都可能长时间锁定在非帕累托状态;•但不同制度之间的竞争可能打破非帕累托均衡;•如全球化对公司治理结构以及其他制度的影响。囚徒困境合作不合作合作不合作4,4-1,66,-10,0一次性博弈•“不合作”演化稳定均衡;•一般地,如果存在占优战略(dominantstrategy),该占优战略是ESS;博弈重复两次ALL-CALL-DALL-CALL-D8,8-2,1212,-20,0TFTTFT8,88,88,8-1,66,-1谁将生存?•首先注意到,幼稚的合作型生存能力最差:如果遇到ALL-C和TFT,与TFT得到相同的支付,但如果遇到ALL-D,则比TFT更遭;•所以TFT比ALL-C更能生存;•如果初始人口由ALL-C和ALL-D组成,TFT将可以成功的侵入;•如果初始人口全是ALL-C或由ALL-C和TFT组成,ALL-D将可以成功入侵;•所以ALL-C不是ESS。两类:ALL-D和TFTTFTALL-DTFTALL-D8,8-1,66,-10,0谁将生存?•假定初始人口中TFT的比例为x,ALL-D的比例为(1-x);•TFT的预期支付:8x-(1-x)=9x-1;•ALL-D的预期支付:6x+0(1-x)=6x;•9x-16x•x1/3均衡•如果x/1/3,TFT生存;稳定均衡;•如果x1/3,ALL-D生存;稳定均衡;•如果x=1/3,二者同样生存,但不是稳定均衡;图示880x=11/3生存能力ALL-D:6xTFT:9x-1-1N次博弈TFTALL-DTFTALL-D4n,4n-1,66,-10,0生存能力•TFT:4nx-(1-x);•ALL-D:6x+0(1-x)=6x•4nx-(1-x)6x•(4n-5)x1•x1/(4n-5)X与N的关系1/3xnn=2TFT均衡ALL-均衡RobertAxelrod•Axelrod(1981,1984)著名的实验证明,在14种战略中,TFT是最成功的;•在第2个实验中,在62个战略中,TFT是最成功的。弱稳定与强稳定•稳定性依赖于变异战略(mutant)的种类;•假定原来的人口全由TFT组成。如果变异是ALL-C,合作继续维持,但比例不会变化:•强稳定(strongstable):变异入侵之后,元战略比例会增加直到把变异者消灭为止;•若弱稳定weakstable):变异入侵后,比例不会变化。“中性变异”TFT,TF2T,STFT•ALL-C和TF2T是TFT的中性变异;•如果初始人口由TFT和TFT2T组成,STFT入侵后,TFT将消失;•所以,TFT甚至不是弱稳定战略。人们将模仿成功者。合作社会会被破坏吗?•假定TFT长时间维持了社会的合作;人们可能变成ALL-C类型;此时,ALL-D入侵后,将可能蔓延很长时间,甚至导致整个社会进入非合作社会;•中国人在西方为什么容易行骗?TFT:动物界的合作•ManfredMilinski(1987):amongcertainsmallfishthatfaceaniteratedPD;•当一条大鱼进入一群小鱼的池塘时,一条或更多的小鱼将接近它侦探它有危险。这种掠夺侦察活动对这些侦探者是有风险的,但整个鱼群是有好处的:如果侵入者不是掠夺者或者不是特别饥饿,小鱼无须疏散。PD:每个个体都有很强的动机背叛,让其他鱼完成侦察;但是如果所有的鱼都背叛,就不可能获得侵入者的信息。而完全的合作可以最小化总的风险,因为如果不能集中与单个目标,入侵者将被迷惑。(续)•Milinski和Dugatkin独立地发现,鱼类确实在使用TFT:当一对鱼接近入侵者时,如果一条想尾随在后,走在前面的鱼转身向后,等待另一条跟上,然后再并行前进。日复一日,Guppies甚至可以记住其他同伙过去的表现。如果一次试验中一方背叛,另一方在第二天的试验中也会背叛。•Guppies倾向于与过去表现出更具合作精神的鱼结伴而行。鹰-鸽博弈HAWKDOVEHAWKDOVE-1,-11,00,10.5,0.5生存能力•假定鹰派的比例是x,鸽派的比例是1-x;•鹰派的支付:-x+(1-x)=1-2x;•鸽派的支付:0x+0.5(1-x)=0.5(1-x);•1-2x0.5(1-x);•x1/3均衡•如果x1/3,鹰派占优势;不稳定•如果x1/3,鸽派占优势;不稳定•如果x=1/3,同样的适应性;稳定;•稳定均衡是POLYMORPHIC;图示180x=11/3生存能力-1鹰派:1-2x鸽派:0.5(1-X)二元均衡•鹰派和鸽派同时并存;•如果初始人口由单一类型构成,另一类型可以成功入侵,直到均衡;•少数派占优势;•“男人不坏,女人不爱”?自发秩序与产权制度•人类的行为并非完全有基因唯一决定;即使并非总是完全理性地计算,人们也必然要在不同的战略之间选择;•社会秩序是所有人行为选择的结果,但不是集中设计的,而是自发演化的结果;•产权制度:先占原则(possessionrule);•教室占座位:•ROBERTSUGDEN,JEP,1989.鹰-鸽博弈HAWKDOVEHAWKDOVE-1,-11,00,10.5,0.5AB三个纳什均衡•两个纯战略均衡:–(A-鹰,B-鸽);–(A-鸽,B-鹰);•一个混合战略均衡:(1/3,2/3)•仅仅“理性”不足以决定均衡。但有限理性但有一定经验和想象力的人们可以协调他们的行为。信号与身份•如果两人完全一样,就没有办法选择特定的均衡;•假定存在某种显性的标记机制:在博弈开始之前,每个人收到一个信号:A或B;概率是1/2;信号完全负相关;标记是共同知识;•规则:如果A,选择“鹰”;如果B,选择“鸽”;•每个人都有积极性遵守这个习惯(规则);•这个习惯就是事实上的产权规则(defact).ESS•(1)如果A,选择“鹰”;如果B,选择“鸽”;•(2)如果A,选择“鸽”;如果B,选择“鹰”;•(3)无论是A还是B,以1/3的概率选择“鹰”,2/3的概率选择“鸽”;•只有(1)和(2)是ESS。哪一个习惯(convention)•演化过程将给出习惯。•习惯可以是演化稳定的,即使他们是非帕累托效率的。•如下图中:如果习惯(1)给每个人的预期收入是0.55;习惯(2)给每个人的预期收入是0.45;因此(2)帕累托劣于(1),但一旦建立,就会持续存在。鹰-鸽博弈HAWKDOVEHAWKDOVE-1,-11.1,00,0.90.55,0.45AB习惯如何开始演化?•一旦大部分人开始遵守一个习惯,这个习惯就会自我加强;最容易在没有习惯的地方建立的行为规则最容易成为习惯;•最初的信念何来?一种可能是能使人们在一次博弈中无须交流就可以相互协调的力量;•先验的预期来自共同的经验:•习惯通过“类比”而扩散:如果共同的经验告诉我们一种特定习惯在一种情况下会被人们普遍遵守,这种习惯就成为类似情况下的模仿对象。类比创造习惯•儒家的“家”与“国”;•习惯家族:first-on规则(先来后到);•“firstcome,firstserved”;“lastin,firstout”;•产权规则:谁先占,谁所有;•领土的国际争端;•即使一开始不同的人有不同的习惯,随着时间的推移,人们趋向于最成功的规则;•popularity:遵守的人越多,越值得遵守。从习惯(convention)到规范(norms)•习惯是已经建立起来的行为规则;•如果人们
本文标题:张维迎《博弈论与信息经济学》-第12章-演进博弈与自发秩序
链接地址:https://www.777doc.com/doc-5116540 .html