您好,欢迎访问三七文档
当前位置:首页 > 商业/管理/HR > 企业财务 > 同济大学马洪宽老师博弈论复习资料
博弈是一些个体,面对一定的环境,在一定的规章制度下,同时或先后,一次或多次在其允许的策略集中选择其行为并加以实施,最终获得一定结果的过程博弈论从衡量利弊得失的角度出发,分析形势得出相应的对策,在决策的过程中考虑到参与的其他人的行为会相互影响的决策者,需要博弈论,决策中不考虑他人的行为的决策者不需要博弈论。博弈论通常记为G或Γ,局中人的集合通常为N,为局中人n,局中人的策略集记为S,则某一策略记为αi,局中人i的策略组合为(αi,α-i),其中α-i表示局中人i以外所有人的策略组合。局中人的收益U是α的函数,则博弈也记为G(N,S,U),若考虑信息则是G(N,S,U,I)上策均衡:每个人都有上策,博弈时必取上策,形成的均衡为上策均衡。囚徒困境:对每一行在第二个分量中划线,即甲策略不变时乙的策略。反之亦然乙招不招甲招-5,-50,-8不招-8,0-1,-1两人都有上策均衡,亦为纳什均衡智猪博弈:有一开关,大猪小猪都按,则大猪得7单位,小猪得3单位;大猪按,小猪不按,大猪得6单位,小猪得4单位;小猪按,大猪不按,大猪得9单位,小猪得1单位;但是按一下会消耗2单位(此处隐含条件,两者都不按则无收益与支出)。小按不按大按5,14,4不按9,-10,0此时小猪有上策[不按],但是大猪无上策——小猪选择不同,大猪选择也相应不同。此时(大猪,小猪)的纳什均衡为(按,不按)此情境可推广至投资机构与散户的投资行为。机构研究市场动向,之后散户跟风。娱乐博弈:甲爱象棋,乙爱围棋,甲乙一起下象棋,甲得5,乙得2;甲乙一起下围棋,甲得2,乙得5;但是两人选择不同则游戏无法开始。乙象围甲象5,20,0围0,02,5两人均无上策,(甲,乙)的纳什均衡为(象,象)或(围,围)便士博弈:甲乙同时放一枚硬币,如同面则乙给甲1块钱,如异面则甲给乙1块钱乙正反甲正1,-1-1,1反-1,11,-1此题不存在纯策略静态博弈的纳什均衡,但有混策略均衡。混策略的原则是做出某种概率,使对方的收益无差异。设甲取正概率为p,可写出乙的期望收益,欲使乙无差异,则p=0.5;同样,对乙的选择亦如此。定理:任意有限博弈必定存在一纳什均衡。古诺模型(产量决策模型):甲乙两厂商生产一产品,价格函数为P=8-Q,单位成本C=2,问甲乙应如何定产量?解:设甲产q1,乙产q2,则Q=q1+q2π1=Pq1-Cq1=(8-q1-q2)q1-2q1=-q12+(6-q2)q1∂𝜋1∂𝑞1=−2q1−q2+6同理可得:∂𝜋2∂𝑞2=−2q2−q1+6令两偏导数均为零,解得q1=q2=2则π1=π2=4卡特尔:甲乙约定“各产一半,利润均分”π=(8-Q)Q-2Q,求导得Q=3时π最大,即各产1.5,各得4.5但根据π1=-q12+(6-q2)q1可算出在q2=1.5时甲利润最大的产量并不是1.5,而是2.25,此时甲可得利润5.0625,因此合作不牢固下策:无论对方如何行动,甲在α和β两个策略中都有α优于β,则称β为下策;与上策不同,上策是优于所有其他策略的策略,而下策是只要劣于任意一个其他策略的策略博弈树:描述动态博弈的工具,注意两个节点是否因信息未知而实际为一个借钱还钱博弈:甲向乙借钱,乙可以选择借或不借,如果不借则两者均无收益支出,选择借,则甲可以选择还或者不还,选择还则甲乙收益均为1,选择不还则乙可选择诉讼还是不诉讼,诉讼收益为甲1.5,乙0.5,不诉讼则甲4,乙-2。画博弈树,利用递推归纳法斯塔克伯格模型:P=8-Q,单位成本C=2,甲先确定其产量,之后已确定其产量,问乙甲乙借不借还不诉诉0,01,10.5,1.5-2,4两者产量各多少。先看第二阶段,乙的利润函数π2=6q2-q1q2-q22,对q2求偏导,可得q2=(6-q1)/2,之后将此式代入π1,得π1=3q1-q12/2,求导得q1=3,q2=1.5工资的确定:第一阶段,工会定工资,收益U(w,L),w为工资,L为被雇佣人数。第二阶段,企业雇佣人,利润π=R(L)-wL,R为L个人生产的产值。解:先分析第二阶段,企业雇佣人数为π对L的偏导,求出L,继而进入第一阶段,将L代入U(w,L),求U对w的偏导,即可求出w。这种方法现实中并非双方默契,而需要双方谈判达成。折现率:明年100元在今年值a元,则折现率δ=a/100。注意:老师上课将δ称为贴现率,这是错误的。讨价还价博弈:甲乙分钱,甲先提出一种分法,乙可以选择同意或拒绝,如拒绝则乙提一种分法,甲同意或拒绝,如拒绝则甲提一种分法,乙必须同意。如果规则仅仅如此,则结果必然是甲全拿,乙无收获,即(1,0)。理由如下:如果博弈可以进入第三阶段,则甲必然将钱全部据为既有,则在第二阶段无论乙如何划分,甲都必须拒绝,则在第一阶段甲亦会做出甲得1,乙得0的划分,第一阶段乙无论同意或拒绝都改变不了最终结果。规则修改:每一阶段的折现率为δ(0δ1),即假设博弈进入第二阶段,则总钱数将不为1而是δ。解:博弈树如下:之所以将第二阶段与第三阶段的分钱方案写为δq2与δ2q3,是因为这样会简化计算,无实质性差异。第三阶段的分法是(δ2q3,δ2(1-q3)),而如果在第二阶段有δq2=δ2q3,则在第二阶段甲会选择同意而不会进入第三阶段(注意,如果甲此时选择进入下一阶段则甲收益不少,但乙收益会减少,而我们假设每个理性人只考虑自己利益最大化,而不理会其他人利益,故在保证自己利益的情况下不会去损害他人,当然零和博弈保护自己即是损害他人,如每一阶段独立来看都是广义零和博弈)。同样,如果在第一阶段有1-q1=δ(1-q2),则乙会直接同意而不进入第二阶段。取临界等式,可得q1=1-δ+δ2q3。即如果在第三阶段有一分法(δ2q3,δ2(1-q3)),则相应的在第一阶段必定有双方同意分法(1-δ+δ2q3,δ-δ2q3)。显然,在第三阶段甲会独吞剩余钱数,即q3=1,甲得到δ2,则第一阶段的分法将会是(1-δ+δ2,δ-δ2),即如果折现率为1或0,则甲都会独吞,但折现率在0和1之间,甲不会独吞。甲乙永远不会相等,差距最小时为δ=0.5,说明该规则先下手为强。规则改变2:假设可进行无限多次讨价还价,即如有一方不同意,则永远按上述规则讨论下去,直到双方同意为止,同样现值也会以每回合δ的比率折减。博弈树如图无法使用递推归纳,因不存在最后一个阶段。可将决策树砍掉前两个阶段并与原决策树进行比较,由于有无限多过程,则两决策树等同,即第三阶段与第一阶段没有任何差别,是全等的,因此在第三阶段可以达到的协议在第一阶段就也可以达成。这样就可以将无限阶段动态博弈改为三阶段动态博弈。如上题结论,如果在第三阶段甲可以得到1-δ+δ2q,则第一阶段甲必定可以得到q,由于第一和第三阶段完全等同,则q=1-δ+δ2q,解得q=1/(1+δ),即第一阶段分法为(1/(1+δ),δ/(1+δ))。此时结论便不相同,如果δ为1,即不发生现值折减,则两人会平分;如果δ为0,则甲独吞——因即使乙不同意乙也什么都得不到,这可以解释现实情况,因现实中多为终点不确定的博弈——可等同于无限次博弈。关税与国际市场模型:太复杂,略过银行挤兑模型:银行有一200万元项目,一年后本利和220万,甲乙各有100万,如甲乙都将100万存入,一年后可得110万,如中途有人提前取款,银行只得卖掉项目得160万,先到者得100万,后到者60万,如两人同时提前取,各得80万。分析:第一阶段,甲乙是否存款;第二阶段,甲乙提前还是到期取款。解:先分析第二阶段,见下表:乙提前到期甲提前80,80100,60到期60,100100,100则有两个纳什均衡(提前,提前)和(到期,到期),再分析第一阶段乙存不存甲存进入第二阶段100,100不存100,100100,100综合来看,在(存,存)策略中会有两种可能的收益情况:乙存不存甲存110,110或80,80100,100不存100,100100,100但此时双方都会预见到只要自己不主动提前支取,另一方不会提前支取的,同时自己没必要提前支取,因到期支取获得的收益要大,因此博弈的稳定结果为(存,存)以及(到期,到期)重复博弈:一次博弈,策略集中有P个元素,则重复T次,策略集中有PT个元素。连锁店悖论:甲在某地先开连锁店,之后乙也想在此地开连锁店,甲的策略集(默许,斗争),乙的策略集(进入,不进入)乙进入不进入甲默许50,40100,0斗争0,-10100,0纳什均衡应当为(默许,进入)修改规则:将此博弈重复20次(可理解为有20个地区遇到相同情况),问结果如何?完美信息动态博弈,最后一阶段必取均衡。假设有n个阶段(n有限),在第n阶段时前n-1个阶段的收益已定,在第n阶段收益多少决定了总博弈收益多少。同理,n-1也必取均衡……因此所有阶段都要取均衡。这样甲乙的收益为(2000,1600)。但这样分析可能与现实产生矛盾。甲可以在前5回合都选斗争,之后乙亏损严重退出竞争,之后15回合乙都不进入,此时甲收益15001000。说明不能简单认为每回合都取均衡,可以设计策略。定价博弈:甲乙对一个商品进行定价,支付矩阵如下表乙高中低甲高5,50,60,2中6,03,30,2低2,02,01,1在一次博弈中均衡为(中,中)或(低,低),但在重复博弈中可设计策略。现将此博弈重复两次,策略可如此设计:第一阶段甲取高,如乙也取高,则第二阶段甲取中;如第一阶段乙取中,则第二阶段甲取低。此策略对乙也是相同。如果乙选择合作,则收益为5+3=8,如乙不合作,则收益至多为6+1=7,则乙会选择合作。对甲亦如此最后一阶段必然需要取均衡,因最后一阶段没有约束手段,不可能达成合作。一次性博弈中如局中人收益和最大者对应的策略组合未实现,则在重复博弈中产生合作的可能,即产生新的均衡(提高社会总收益)的可能。产生的方法:先试图合作,如对方合作则继续合作;如对方不合作,则从此一直不合作,称为触发策略。触发策略产生了重复博弈的一均衡。市场选择甲乙各有A、B连个投资机会,如两人均A,各得3;一A一B,选A得1,选B得4;如两人均B,各得0。问重复2、3、4次会如何?一次博弈矩阵:乙AB甲A3,31,4B4,10,0重复2次:如两次(A,B),则甲2乙8;两次(B,A),则甲8乙2;一次(A,B)一次(B,A),则甲乙各5。则可采用轮换策略,以示公平。但此时(A,A)取不到,因没有惩罚方式,不会合作。重复3次:可设计策略。第一阶段甲先取A,如乙也取A,则第二阶段甲取A,第三阶段甲取B;如第一阶段乙取B,则甲在二、三阶段均取B。此时乙如果合作,收益为3+4+1=8;如不合作,收益为4+1+1=6。因此乙会合作。用后两个阶段的轮换策略保证第一阶段的合作。重复4次:设计策略类似,即甲在第一阶段先取A,如乙也取A,则与重复3次的情况相同;如乙取B,则甲在后续所有阶段均取B。此时乙如果一直合作,收益为11;如乙第二阶段不合作,收益为9;一直不合作,收益为7。价格战无限次重复甲乙两厂商,各有高、低两种价格可选择,两人均高,各得4;一高一低,高者0,低者5;两人均低,各得1。无限次重复,贴现率δ。一次博弈的收益矩阵:乙高低甲高4,40,5低5,01,1则在一次博弈中有均衡(低,低),收益之和最大值(高,高)未实现。触发策略:先试图取高,如对方取高,则继续取高;如对方取低,则此后一直取低。如果合作,第一次得4,现值4;第二次得4,现值4δ;第三次得4,现值4δ2。无限次后现值为:lim𝑛→∞4(1−𝛿𝑛)1−𝛿=41−𝛿如果不合作,第一次得5,以后都得1。无限次后现值为:5+lim𝑛→∞𝛿(1−𝛿𝑛)1−𝛿=5+𝛿1−𝛿令合作不合作,得δ1/4,因此当δ1/4时合作,否则不合作。古诺模型无限次博弈低水平合作:先产q*,如对方也q*,则会继续合作,如不产q*,则以后都产2。高水平合作:需加大惩罚力度,实现高水平合作——各产1.5。第一阶段先产1.5,如对方不合作,则在第二阶段选择一产量惩罚对方,迫使对方合作。并且如果对方想和好则产与己方相同的产量,否则
本文标题:同济大学马洪宽老师博弈论复习资料
链接地址:https://www.777doc.com/doc-7338829 .html