您好,欢迎访问三七文档
1完全信息静态博弈1.0对策论研究的内容与基本形式对策论研究的内容对策论研究多个行为主体的决策问题。对策论研究的形式博弈(game),由多个行为主体构成的系统。例StackelbergmodelCournotmodel博弈的类型参与者行动的时间与顺序同时行动——静态博弈;先后行动——动态博弈。参与者的信息多少信息相同——完全信息;信息不同——不完全信息。1.1基本理论:博弈的标准式和纳什均衡例1儿童游戏:“石头、剪刀、布”。博弈的标准式表示(normal-formrepresentation)(1)参与人(player).n个参与人:1,2,…,i,…,n.(2)战略(strategy).一个参与人的战略是他采取的一个行动。参与人i的战略:si.参与人i的战略空间:Si.战略的一个组合:s={s1,s2,…,sn}.简化表示:s-i={s1,…,si-1,si+1,…,sn}.(3)收益(payoff).参与人i的收益:ui=ui(s1,s2,…,sn)n个参与人博弈的标准形式表示:G={S1,S2,…,Sn;u1,u2,…,un}完全信息(completeinformation):每个参与人知道其他人的战略空间和收益。静态博弈(staticgame):所有的参与人同时行动。每个人行动时,不知道其他人的行动。例1(续):博弈{石头、剪刀、布}的描述:参与人:1,2。战略空间:S1=S2={石头、剪刀、布}收益:两人出手的函数u1(石头,石头)=0,u1(石头,剪刀)=1,u1(石头,布)=-1…u2(石头,石头)=0,u2(石头,剪刀)=-1,u2(石头,布)=1……收益表:两个参与人,有限个战略的博弈的表示方法。P2石头剪刀布石头0,01,-1-1,1P1剪刀-1,10,01,-1布1,-1-1,10,0博弈的问题:能否知道每个参与人选择的战略?例2:囚徒困境(ThePrisoner’sDilemma)囚徒2沉默招认沉默-1,-1-9,0囚徒1招认0,-9-6,-6囚徒1的考虑:无论对方选沉默还是招认,自己选“招认”好于“沉默”。囚徒2的考虑:无论对方选什么,“招认”好于“沉默”。两人的选择:(招认,招认)。定义:si是si的严格劣势战略(strictlydominated),如果:ui(si,s-i)ui(si,s-i)“沉默”是“招认”的严格劣战略例3:参与人2左中右上1,01,33,0参与人1中0,20,16,0下0,22,45,3参与人1:没有严格劣战略。参与人2:“右”严格劣于“中”考虑:重复剔除严格劣战略(iteratedeliminationofstrictlydominatedstrategies)可预见的两人选择:(下,中)。例4:图1.1.4参与人2左中右上0,44,05,3参与人1中4,00,45,3下3,53,56,6两人都没有严格劣战略。两人会如何选择各自的战略?定义:s*=(s1*,…,sn*)是一个纳什均衡(Nashequilibrium),如果ui(si*,s-i*)ui(si,s-i*)纳什均衡为最大化问题的解iiSsmaxui=ui(s1*,…,si,…,sn*)各例中的纳什均衡:囚徒困境:(招认,招认)例3:(下,中)例4(图1.1.4):(下,右).纳什均衡与重复剔除严格劣势战略的关系:没有被剔除的唯一的战略组合是纳什均衡.如果战略是一个纳什均衡,它们在重复剔除严格劣势战略后留下.多个纳什均衡例5性别战(thebattleoftheSexes)帕特歌剧拳击歌剧2,10,0克里斯拳击0,01,2纳什均衡:(歌剧,歌剧),(拳击,拳击)1.2应用例古诺双头垄断模型(CournotModelofDuopoly)二个企业,生产产量:q1,q2市场需求:P=a–Q,Q=q1+q2企业成本:Ci(qi)=cqi,i=1,2.企业利润:i(q1,q2)=Pqi–Ci(qi)=(a–(q1+q2))qi–cqi,博弈的描述:参与人:企业1,企业2战略:产量qi收益:i(q1,q2)企业i选择产量求iiSsmaxi(si,,sj*):一阶条件11dqd=a–c–2q1–q2*=0和22dqd=a–c–q1*–2q2=0厂商选择自己利润最大的产量q1=22qcaq2=21qca解纳什均衡得q1*=q2*=3ca利润π1=π2=(a–c–(3ca+3ca))3ca=9)(2ca当ui是可微分的时候,纳什均衡为下列方程组的的解:inissssu),...,,(21=0,i=1,…,n思考:用重复剔除严格劣势战略求纳什均衡比较:如果两个厂商生产q1=q2=4ca利润π1=π2=(a–c–(4ca+4ca))4ca=8)(2ca例贝特兰德双头垄断模型(BertrandModelofDuopoly)两个企业生产有差别的商品。消费者对企业i的需求qi(pi,pj)=a–pi+bpj,成本:Ci(qi)=cqi,i=1,2.战略si:pi0收益:i(pi,pj)=(a–pi+bpj)(pi–c)纳什均衡(p1*,p2*)满足maxi(pi,pj*)=max(a–pi+bpj*)(pi–c)解得p1*=p2*=bca2例最后要价仲裁(Final-offerArbitration)一个企业和一个工会,通过一个仲裁人决定工资。企业和工会同时提出工资:wf,wu仲裁人有一个标准:x,选择双方提议中比较靠近x的提议:如果x(wf+wu)/2,则wf如果x(wf+wu)/2,则wuwf(wf+wu)/2xwu企业和工会不知道x,但知道x的分布函数F(x)和密度函数f(x)。分析wf被选择的概率:Prob{x2ufww}=F2uf被选择的概率:Prob{x2ufww}=1–F2ufww期望工资Ew=wfF2ufww+wu1–F2uf*满足fwminwfF2*ufww+wu*1–F2*uf*满足uwmaxwf*F2*ufww+wu1–F2*ufww由一阶条件F2ufww+21wff2ufww-21wuf2ufww=021wff2ufww+1-F2ufww-21wuf2ufww=0由此解出工资的均衡提议。两式相减F2ufww=21两式相加wu*f2ufww–wf*f2ufww=1如果x为正态分布:x~N(m,2)2**ufww=mwu*–wf*=)(1mf=22,纳什均衡wu*=m+2/2,wf*=m–2/2例公共财产问题一个村庄,有n个村民,在公共草地上放羊。村民i放牧的羊数:gi全村的羊总数:G=g1+...+gn养一只羊的(私人)成本为c,一只羊的价值为v(G)当GGmax,v(G)0,v'(G)0,v''(G)0当GGmax,v(G)=0每个村民选择养羊数量使自己收益最大giv(G)–cgi一阶条件v(G)+giv'(G)–c=0,i=1,...,n将n个等式相加得到nv(G)+Gv'(G)–nc=0即纳什均衡G1满足v(G1)+nG1v'(G1)–c=0全村在总收益最大的放牧数G2满足maxG2v(G2)–cG2一阶条件v(G2)+G2v'(G2)–c=0G1与G2哪一个大?G1大vv(G)OGmaxGGv'(G)/nv'(G)Gv'(G)决策问题:在条件变差时,收益上升还是下降?在通常的(一人)决策中,如果有几个选择,决策者选择收益最大的一个。如果外界条件改变,使他的一个或几个收益下降,则它无论怎样选择,都不会使收益比原来更大。例在一块田里选择种植的(纯)收入:棉花3000元花生3700元玉米3500元如果成本上升,收入变为棉花3000元花生3200元玉米3400元人决策收益通常下降例在多人决策时的收益下降与增加(1)初始时参与人2T1T2S15,48,3参与人1S24,36,5均衡为(S1,T1),参与人1的收益为5。(2)外界条件使参与人1在选择S1时的收益下降参与人2T1T2S13,45,2参与人1S24,36,5均衡变为(S2,T2)参与人1的收益为6。多人决策时,收益可能上升。1.3混合战略和均衡的存在例1儿童游戏:“石头、剪刀、布”不存在纳什均衡。如何选择战略?例6猜硬币(MatchingPennies)参与人2正面反面正面-1,11,-1参与人1反面1,-1-1,1也不存在纳什均衡。将原来的战略sik称为纯战略(purestrategy)。战略空间Si=(si1,…,siK)。混合战略(mixedstrategy):战略空间Si的概率分布:pi=(pi1,…,piK).——由参与人选定。(参与者在可选行动中所有行动的一个概率分布)收益:vi(p1,…,pn)=k(jpjk)ui(s1,…,sn)=Eui(s1,…,sn)——由概率计算的期望值。较简单的情形:二个参与人S1={s11,…,s1J},S2={s21,…,s2K}收益:v1(p1,p2)=JjKk11p1jp2ku1(s1j,s2k)猜硬币的收益:如果p1=(41,43),p2=(31,32),则v1=–41×31+41×32+43×31–43×32=-1/6v2=41×31–41×32–43×31+43×32=1/6任意的混合战略,p1=(p,1-p),p2=(q,1-q),则v1(p1,p2)=pq(-1)+p(1-q)+(1-p)q+(1-p)(1-q)(-1)=2p(1-2q)+2q-1v2(p1,p2)=pq+p(1-q)(-1)+(1-p)q(-1)+(1-p)(1-q)=2q(2p-1)+1–2p混合战略中的劣战略例7参与人2LRT3,--0,--参与人1M0,--3,--B1,--1,--如果只考虑纯战略,B不是严格劣战略。在纯战略时,如果参与人选L,则1选T,如果参与人2选R,则1选R。能否剔除B?如果1选择p=(0.5,0.5,0),则对2的任何混合战略(q,1–q)v1(p,q)=0.5q3+0.5(1-q)0+0.5q0+0.5(1-q)3=1.5考虑以概率1选择B,即pB=(0,0,1),则v1(pB,q)=q1+(1-q)1=1即B为p的严格劣战略。v3MTp1BO1q似乎可以剔除B?如果改写一下:参与人2LRT3,--0,--参与人1M0,--3,--B2,--2,--结果有何变化?给出其它人的混合战略p-i,i的最优反应:pvi(pi,p-i)vi(pi,p-i)例6(续)在猜硬币中,参与人1的收益:v1(p1,p2)=pq(-1)+p(1-q)+(1-p)q+(1-p)(1-q)(-1)=2p(1-2q)+2q-1参与人1的最优反应如果q21,p=1;如果q21,p=0;如果q=21,p在[0,1]中任意。参与人2的收益:v2(p1,p2)=pq+p(1-q)(-1)+(1-p)q(-1)+(1-p)(1-q)=2q(2p-1)+1–2p参与人2的最优反应如果p21,q=0;如果p21,q=1;如果p=21,q在[0,1]中任意。pp111/2O1/21qO1q参与人1参与人2混合战略的纳什均衡纳什均衡:p*=(p1*,…,pn*)满足vi(p*i,p*-i)vi(pi,p*-i)纳什均衡为最大化问题的解ipmaxvi=vi(p1*,…,pi,…,pn*)在猜硬币中,{(21,21),(21,21)}是一个纳什均衡.p1O1/21q例8性别战(续)克里斯取混合战略(p,(1–p)),帕特取(q,(1–q))克里斯收益v1=2pq+(1-p)(1-q)=p(3q-1)+1-q她的最优反应p=0,当q31,p=1,当q31p
本文标题:博弈论 第一章
链接地址:https://www.777doc.com/doc-2609347 .html