您好,欢迎访问三七文档
当前位置:首页 > 商业/管理/HR > 经营企划 > 博弈论的几个经典模型1
博弈论的几例经典模型主讲人:鲁家乐邵培林博弈论的几个经典模型引言博弈论又被称为对策论(GameTheory),及研究互动决策的理论。互动决策:即各行动方(即局内人[player])的决策是相互影响的,每个人在决策的时候必须将他人的决策纳入自己的决策考虑之中,当然也需要把别人对于自己的考虑也要纳入考虑之中……在如此迭代考虑情形进行决策,选择最有利于自己的战略(strategy)。博弈论的几个经典模型博弈:game,即是人们遵循一定规则下的活动,参与人的目的是“赢”。进行game的人是很认真的,不同于汉语中游戏的概念。博弈论/对策论:gametheory奥林匹克运动会:OlympicGames。引言博弈论的几个经典模型•博弈论研究的对象:是理性人或参与者如何选择策略或如何作出行动的决定。•理性不一定道德。基本术语博弈论的几个经典模型猪圈里有两只猪,一只比较大,一只比较小。猪圈狭长,猪食槽在一头,猪食按钮在另一头,按一下会有10个单位的猪食落进槽里。由于按钮和食槽距离较远,按按钮的体力耗费相当于2个单位的食物。若大猪先到槽边,大小猪吃到食物的收益比是9:1;同时到槽边,收益比是7:3;小猪先到槽边,收益比是6:4。模型一、智猪博弈/完全信息静态博弈小猪大猪按不按(等待)按(5,1)(4,4)不按(等待)(9,-1)(0,0)博弈论的几个经典模型选择等待是小猪的占优策略。大猪的最佳选择取决于小猪的行动,如果小猪去按,大猪最好选择等待;如果小猪不去按,则最佳选择是大猪亲自去按。也就是说,在智猪博弈中,大猪没有占优策略,而小猪有占优策略,它的最佳选择就是耐心等待大猪去按钮,才能获得最佳结果。“小猪躺着大猪跑”的现象是由于故事中的游戏规则所导致的。规则的核心指标是:每次落下的事物数量和踏板与投食口之间的距离。模型一、智猪博弈/完全信息静态博弈博弈论的几个经典模型如果改变一下核心指标,猪圈里还会出现同样的“小猪躺着大猪跑”的景象吗?试试看。改变方案一:减量方案。改变方案二:增量方案。改变方案三:减量加移位方案。投食仅原来的一半分量,但同时将投食口移到踏板附近。结果呢,小猪和大猪都在拼命地抢着踩踏板。等待者不得食,而多劳者多得。每次的收获刚好消费完。对于游戏设计者,这是一个最好的方案。成本不高,但收获最大。模型一、智猪博弈/完全信息静态博弈博弈论的几个经典模型有两个小偷A和B联合犯事、私入民宅被警察抓住。警方将两人分别置于不同的两个房间内进行审讯,对每一个犯罪嫌疑人,警方给出的政策是:如果一个犯罪嫌疑人坦白了罪行,交出了赃物,于是证据确凿,两人都被判有罪。如果另一个犯罪嫌疑人也作了坦白,则两人各被判刑8年;如果另一个犯罪嫌人没有坦白而是抵赖,则以妨碍公务罪(因已有证据表明其有罪)再加刑2年,而坦白者有功被减刑8年,立即释放。如果两人都抵赖,则警方因证据不足不能判两人的偷窃罪,但可以私入民宅的罪名将两人各判入狱1年。模型二、囚徒困境/非合作博弈博弈论的几个经典模型不难看出,“坦白”是任一犯罪嫌疑人的占优战略,而(坦白,坦白)是一个占优战略均衡。模型二、囚徒困境/非合作博弈乙甲坦白抵赖坦白(-8,-8)(0,-10)抵赖(-10,0)(-1,-1)博弈论的几个经典模型该博弈刻划了两大难题:•冲突情形下,参与人的目标是什么?是采用(作为个人)他自己的最好策略,还是采用(作为集体的一员)他们共同的最好策略?前者导致均衡策略(坦白,坦白),支付为(-8,-8);后者的最好策略是(抵赖,抵赖),支付为(-1,-1)。这里反映了个体理性行为与集体理性行为之间的矛盾、冲突。•此博弈只进行一次还是重复进行?如果博弈只进行一次,参与人似乎只有坦白才是最好的策略,因为没有理由相信对手会对你有信心,他总认为你自己会坦白;因此,双方都采取坦白策略。然而,若博弈进行多次,则结论将会发生变化。模型二、囚徒困境/非合作博弈博弈论的几个经典模型•什么是海萨尼转换?海萨尼提出了一种处理不完全信息博弈的方法,即引入一个虚拟的局中人——“自然”。自然首先行动,它决定每个局中人的特征。每个局中人知道自己的特征,但不知道别的局中人特征。这种方法将不完全信息静态博弈变成一个两阶段动态博弈,第一个阶段是自然N的行动选择,第二阶段是除N外的局中人的静态博弈。这种转换被称为“海萨尼转换”,这个转换把“不完全信息”转变成为完全但不完美信息,从而可以用分析完全信息博弈的方法进行分析。模型三、独立私人价值下的一级密封拍卖/不完全信息静态博弈博弈论的几个经典模型•海萨尼转换的具体方法一个虚拟的参与人“自然”,自然首先决定参与人的类型,赋予各参与人的类型向量,其中;自然告知参与者自己的类型,却不告诉其他参与者的类型;参与者同时选择行动,每一参与者从可行集中选择行动方案;各方得到收益。借助于第一步和第二步中虚构的参与者“自然”的行动,我们可以把一个不完全信息的博弈表述为一个不完美信息的博弈。模型三、独立私人价值下的一级密封拍卖/不完全信息静态博弈t12(,,,)ntttt12(,,,,)iiiAaaatiiA博弈论的几个经典模型•海萨尼转换分析海萨尼转换是处理不完全信息博弈的标准方法。一般地,“自然”在博弈开始的时候选择参与人的类型,参与人的某个类型包括表征类型的各个特征如策略空间、信息集、得益函数等,这些又称为该类型参与人所拥有的个人信息。不完全信息意味着博弈各方中至少有一个参与人有多个类型。模型三、独立私人价值下的一级密封拍卖/不完全信息静态博弈博弈论的几个经典模型通过海萨尼转换,博弈开始时,所有参与人有关“自然”的行动有一致的信念,即都知道所有参与人类型的概率分布函数,此即“海萨尼公理”。模型三、独立私人价值下的一级密封拍卖/不完全信息静态博弈博弈论的几个经典模型某一市场原来被A企业所垄断。现在B企业考虑是否进入。B企业知道,A企业是否允许它进入,取决于A企业阻挠B企业进入所花费的成本。如果阻挠的成本低,那么,正如下表后两列所表示的,A企业的占优战略是阻挠,博弈有重复剔除的占优战略均衡——A阻挠,B不进入。如果阻挠的成本高,那么,正如下表前两列所表示的,A企业的占优战略是默许B进入,博弈有重复剔除的占优战略均衡——A默许,B进入。B企业所不知道的,是A企业的阻挠成本是高是低。这里,某一参与人本人知道、其他参与人则不知道的信息称为私人信息。某一参与人所拥有的全部私人信息称为他的类型。在本例中,阻挠成本就是A的私人信息。高阻挠成本和低阻挠成本则是两种不同的类型。模型三、独立私人价值下的一级密封拍卖/不完全信息静态博弈博弈论的几个经典模型海萨尼转换后的市场进入博弈:模型三、独立私人价值下的一级密封拍卖/不完全信息静态博弈AB高成本低成本默许阻挠默许阻挠进入(40,50)(-10,0)(30,100)(-10,140)不进入(0,300)(0,300)(0,400)(0,400)显然,在这里,B所遇到的,是不确定性条件下的选择问题。因为B不仅不知道A的类型(是高还是低),而且不知道不同类型的分布概率。博弈论的几个经典模型按照海萨尼的方法,所有参与人的真实类型都是给定的。其他参与人虽然不清楚某一参与人的真实类型,但知道这些可能出现的类型的分布概率,而且这种概率是公共知识。用本例来说,公共知识不仅意味着B企业知道A企业高阻挠成本与低阻挠成本的分布概率,而且意味着A也清楚B知道这一概率。模型三、独立私人价值下的一级密封拍卖/不完全信息静态博弈博弈论的几个经典模型模型三、独立私人价值下的一级密封拍卖/不完全信息静态博弈N低成本高成本ABB(50,40)(300,0)(0,-10)(300,0)(100,30)(400,0)(140,-10)(400,0)ABB默许默许阻挠阻挠进入不进入进入进入进入不进入不进入不进入*贝叶斯纳什均衡博弈论的几个经典模型斗鸡博弈(ChickenGame)其实是一种误译。Chicken在美国口语中是“懦夫”之意,ChickenGame本应译成懦夫博弈。两只公鸡狭路相逢。结果有四种可能:两只公鸡对峙,谁也不让谁。或者两者相斗。结局都一样——两败俱伤,这是谁也不愿意的。另两种可能是一退一进。但退者有损失、丢面子。双方都不愿退,也知道对方不愿退。在这样的博弈中,要想取胜,就要在气势上压倒对方,至少要显示出破釜沉舟、背水一战的决心来,以迫使对方退却。但到最后的关键时刻,必有一方要退下来。模型四、斗鸡博弈(chickengame)博弈论的几个经典模型甲/乙前进后退前进(-2,-2)(1,-1)后退(-1,1)(-1,-1)上表中的数字的意思是:两者如果均选择“前进”,结果是两败俱伤,两者均获得-2的支付;如果一方“前进”,另外一方“后退”,前进者获得1的支付,赢得了面子,而后退者获得-1的支付,输掉了面子,但没有两者均“前进”受到的损失大;两者均“后退”,两者均输掉了面子,获得-1的支付。当然表中的数字只是相对的值。模型四、斗鸡博弈(chickengame)博弈论的几个经典模型斗鸡博弈强调的是,如何在博弈中采用妥协的方式取得利益。如果双方都换位思考,它们可以就补偿进行谈判,最后造成以补偿换退让的协议,问题就解决了。模型四、斗鸡博弈(chickengame)博弈论的几个经典模型•光天化日之下的违法行为为什么总能成功?人类有许多关于猴子的故事,比如朝三暮四,杀鸡给猴看。其实猴子是没有思维的,它们有一定的群体意识,但没有社会意识,人们关于它们的故事其实是说人自己的。我们这里也讲一个猴子的故事……。在现实社会中,窃贼在公共场所比如公共汽车上偷东西时,车上的乘客看到了,但不敢吭声。没有被偷的人想,反正被偷的待宰猴群的结局人不是我,我反抗了,我得不到任何好处,反而遭到伤害;而不反抗虽不得益,但也不受损,我何必要反抗呢?这就是光天化日之下的偷窃行为为什么总能成功的原因。模型五、信号博弈/不完全信息动态博弈博弈论的几个经典模型窃贼在偷东西时发出这样的信号:如果谁反抗,将殴打谁。乘客想,窃贼的威胁是可信的:因为如果个别乘客反抗,而窃贼不殴打该乘客的话,就会有更多的乘客抓窃贼,窃贼将有可能被抓,因此窃贼必然欧打反抗的乘客。乘客的策略及可能的支付为:反抗,有可能被殴打甚至受伤;不反抗,无所得也无所失。模型五、信号博弈/不完全信息动态博弈博弈论的几个经典模型乘客反抗不反抗偷东西窃贼窃贼殴打不殴打乘客:受伤窃贼:可能被抓,可能逃脱乘客:无所得,无所失窃贼:被抓窃贼殴打不殴打乘客:受伤窃贼:得到赃物乘客:无所得,无所失窃贼:得到赃物博弈论的几个经典模型对于乘客来说,窃贼的威胁是可信的,因而乘客的最优策略是“不反抗”;而对于窃贼来说,乘客“不反抗”下的“不殴打”策略为最忧。这一博弈的结果是,窃贼偷东西时“乘客不反抗,窃贼不敢打”,这是一“子精炼纳什均衡”。这样一种群体不反抗的结果将使社会风气恶化,偷窃之风盛行。对个体来说,虽然这一次被偷的不是你,但下次你被偷的几率增加了。这使得我们都如同待宰的猴子,我们不知道什么时候轮到我们自己。这样,我们每个人的处境比以前更差。模型五、信号博弈/不完全信息动态博弈博弈论的几个经典模型如何从这种困境中摆脱出来?我们看到,使乘客采取“反抗”策略,而非“不反抗”策略在于加大采取“反抗”策略的获益,而减少不反抗的获益。当“反抗”策略下的获益大于“不反抗”策略下的获益时,乘客就会采取“反抗”的策略。加大道德宣传,培养人的道德感可以解决这个囚徒困境。模型五、信号博弈/不完全信息动态博弈博弈论的几个经典模型乘客反抗不反抗偷东西窃贼窃贼殴打不殴打乘客:受伤,但没有道德满足感窃贼:可能被抓,可能逃脱乘客:没有受伤并有道德满足感窃贼:被抓窃贼殴打不殴打乘客:受伤,并有道德耻辱感窃贼:得到赃物乘客:道德耻辱感窃贼:得到赃物上述博弈过程为:博弈论的几个经典模型这样,当小偷偷东西时,尽管乘客认为窃贼的威胁是可信的,但是如果乘客是道德感强的人,那么博弈结果是“乘客反抗,小偷殴打”,从而小偷有可能被抓住,这也是一“子精炼纳什均衡”。博弈论对不合作的博弈结果的预测是令人悲哀的。但是,从这个例
本文标题:博弈论的几个经典模型1
链接地址:https://www.777doc.com/doc-1786215 .html