您好,欢迎访问三七文档
第四章序贯决策博弈•4-1序贯决策博弈与博弈树•4-2策略与行动•4-3序贯博弈的纳什均衡•4-4倒推法•4-5先动优势与后动优势•4-6博弈论给自己出难题4-1序贯决策博弈与博弈树•决策有先后的博弈,称为序贯决策博弈,简称序贯博弈。•表述为博弈树的博弈,通常也叫做展开型表示的博弈。博弈树描述了所有局中人可以来取的所有可能的行动以及博弈的所有可能的结果。•博弈树由节点(nodes)和棱(edges)组成,节点又分为决策节点(decisionnodes)和末端节点(terminalnodes)。•博弈树以棱把节点连接起来。•决策节点是局中人作出决策的地方。每个决策节点都与一个在该决策节点上进行决策的局中人相对应。•每棵博弈树都有一个初始决策节点,初始决策节点也叫做博弈树的根(root),是博弈开始的地方。•末端节点是博弈结束的地方,一个末端节点就是博弈的一个(可能的)结果(outcome)。•每一个末端节点,都与一个支付向量相对应,这个向量按分量次序排列博弈的所有参与人在这个结果下的博弈所得。博弈的参与人的数目,就是支付向量的维数。•首次行动顺序原则:序贯博弈各结果相应的支付向量中,按照每个参与人头一次决策行动出现先后的自然次序排列收益。•博弈树必须说明在每一个节点上相应的局中人能够采取的所有可能的选择。•一些博弈树可能包含“不做任何决策”的决策节点。每一个决策节点都有至少一条棱从它那里出发往后延伸,但是没有昀大延伸数量的限制。•对于不是根的每个节点,只能有来自别的节点的唯一的棱指向它这个节点。•博弈树并不要求每个局中人必须在至少一个非末端节点上进行决策。即,可能会出现某些局中人并不在任何一个非末端节点上进行决策的情形。进入障碍博弈•一个垄断企业因为他的产品一直可以卖高价赚取每年10亿元的利润。别的企业为了进入这个垄断的行业,需要4亿元的投资。•当别的企业准备进入的时候,原有企业必须决策:或“容忍”新的企业进入,具体表现为他收缩产量以维持高价,这样他的利润降为5亿元。这时,设对方的利润也是5亿元,减去4亿元进入投资,实得1亿。•或垄断企业展开商战“抵抗”,就是加大产量,降低价格,力图把进入者挤出去,这时原来垄断企业的利润降到2亿元,即使对方也得2亿元,却不抵投资的4亿元,结果亏损2个亿。•即使对方不进入,垄断企业也可以采取降价威胁的策略。这时候其的利润下降为4亿元。n人序贯博弈的博弈树的主要特征•对于表达有n个局中人P1,P2,…,Pn参与的一个序贯博弈的博弈树:1.在树的每一个非末端节点上,都只有一个局中人进行决策;2.在树的每一个末端节点上,都指派了一个n维的“支付”向量p(v)=(p1(v),p2(v),…,p3(v)),这里v是这个末端节点的相应的策略表达.而1,2,…n是博弈参与人首次决策的自然顺序。4-2策略与行动•策略:参与博弈的各个局中人在进行决策时,可以选择的方法、做法或经济活动的水平、量值等。•行动:局中人在博弈的某个时点上的决策变量。•同时决策博弈,每个局中人的策略就是他能够采取的行动。•序贯决策博弈,策略与行动有区别。序贯决策博弈•行动:每一个决策节点上局中人的决策变量或行动的具体选择。•策略:一个完整的行动计划,就构成局中人在博弈中的一个策略。•“进入者”只有一个决策节点,他有两个纯策略可以选择:进入和不进入。•“垄断者”有四个可能的纯策略:–不管你怎样,我总容忍;–不管你怎样,我总对抗;–你进我抗,你不进我忍;–你进我忍,你不进我抗。•垄断者的这四个纯策略,可以简单描述为四个行动集,每一个行动集都说明垄断者在他拥有的两个决策节点上相应的行动。–{容忍,容忍}、{对抗,对抗}、{对抗,容忍}、{容忍,对抗}。男策略:足球;芭蕾女策略:一.追随策略:他选择什么,我就选择什么;二.对抗策略:他选择什么,我就偏不选什么;三.芭蕾策略:无论他选什么,我都选我喜欢的芭蕾;四.足球策略:无论他选什么,我都选他喜欢的足球4-3序贯博弈的纳什均衡•女方策略:八种可能的策略组合粗线表示法虚线排除确定法均衡与结果•均衡与结果是两个不同的概念:–均衡是策略的组合;–结果是行动的组合。•例如:情侣序贯博弈,–其中一个纳什均衡是(足球,{足球,芭蕾}),这是一个策略组合,因为它给每个局中人规定了在各种可能发生的情况下应当采取的应对行动,对于每个局中人来讲,它都是一个完整的行动方案。–按照上述这个均衡策略组合所导致的博弈结果是(足球,足球),即,博弈的昀终结局是男女双方都去看足球。(足球,足球)是行动的组合。•同时决策博弈中,由于“策略”选择等同于“行动”选择,所以那时候说“均衡”与说“结果”没有多少不同。•至于符号方面,表示策略组合用圆括号,表示结果也用圆括号,但表示策略组合的圆括号里面的各项是策略,(理应)用花括号括住,而表示结果的圆括号里面的各项是行动,不该用花括号括住。练习•策略组合?•纳什均衡?•策略组合•策略组合星号简示法•策略组合的节点表示法4-4倒推法(逆向推导法)•在序贯博弈中,由于均衡与结果是两个不同的概念,所以求解纳什均衡的虚线排除确定法,并不适用于求解序贯博弈的结果。一般使用倒推法(逆向推导法)求序贯博弈的结果。一般步骤•从序贯博弈的昀后一个决策阶段开始分析,每一次确定出所分析阶段局中人的行动选择和路径。然后再确定前一阶段决策的局中人的行动选择和路径。倒推到某个阶段,则这个阶段及随后阶段的博弈结果就可以确定下来,该阶段的决策节点就可以等同于一个末端节点。因此,甚至可以用不再包括该阶段与其随后所有阶段博弈的等价博弈树,来代替原来的博弈,这个等价的博弈树在这里是一个末端节点。4-5先动优势与后动优势•局中人先行得益大于后行得益的情况,叫做先动优势。•“先下手为强”•局中人后行动得益大于先行动得益的情况,叫做后动优势。•“后下手也不一定遭殃”:eg.昀优的制度•甲有后动优势•甲有先动优势4-6博弈论给自己出难题•难题1:100元的分配(公平思想)•难题2:抓钱博弈(蜈蚣博弈)•难题3:旅行者困境旅行者困境•两个旅行者从一个以出产细瓷花瓶著名的地方旅行回来,他们都买了一样价格的花瓶。•提取行李的时候,发现花瓶被摔坏了。他们向航空公司索赔。航空公司知道花瓶的价格总在八九十元的价值浮动,但是不知道两位旅客买的时候的确切价格是多少。•航空公司请两位旅客在一百元以内自己写下花瓶的价格。如果两人写的一样,航空公司将认为他们讲真话,于是按照他们写的数额赔偿;如果两人写的不一样,航空公司就论定写得低的旅客讲的是真话,并且原则上照这个低的价格赔偿,但是对讲真话的旅客奖励2元钱,对讲假话的旅客罚款2元。前景理论实验•A1100%能赢得1000元•A250%的可能赢得2000元,50%的可能什么都得不到。•A3100%要损失1000元•A450%的可能损失2000元,50%的可能什么都得损失。•一是大多数人在面临获得时是风险规避的;•二是大多数人在面临损失时是风险偏爱的;•三是人们对损失比对获得更敏感。•因此,人们在面临获得时往往是小心翼翼,不愿冒风险;而在面对失去时会很不甘心,容易冒险。人们对损失和获得的敏感程度是不同的,损失时的痛苦感要大大超过获得时的快乐感。卡尼曼(Kahneman)•“2002年的诺贝尔经济学奖发给了心理学家卡尼曼(Kahneman),他带给人们一个新的理论——“前景理论”。瑞典皇家科学院称,卡尼曼因为“将来自心理研究领域的综合洞察力应用在了经济学当中,尤其是在不确定情况下的人为判断和决策方面作出了突出贡献”,摘得2002年度诺贝尔经济学奖的桂冠。奚恺元•芝加哥大学商学院终身教授、中欧国际工商学院行为科学中心主任。•奚教授用心理学来研究经济学、市场学、决策学等学科的问题,是这个领域的主要学者之一。冰淇淋实验•奚教授于1998年发表的冰淇淋实验。有两杯哈根达斯冰淇淋,一杯冰淇淋A有7盎司,装在5盎司的杯子里面,看上去快要溢出来了;另一杯冰淇淋B是8盎司,但是装在了10盎司的杯子里,所以看上去还没装满。你愿意为哪一份冰淇淋付更多的钱呢?•可是实验结果表明,人们反而愿意为分量少的冰淇淋付更多的钱。实验表明:平均来讲,人们愿意花2.26美元买7盎司的冰淇淋,却只愿意用1.66美元买8盎司的冰淇淋。
本文标题:4序贯决策博弈
链接地址:https://www.777doc.com/doc-609337 .html