第3讲---静态博弈

1第3讲静态博弈如前所述，所谓“静态博弈”，是指所有参与人同时行动的博弈。这里的“同时行动”，并非真实意义上的时间区分——只要当任何一个参与人在做出选择时，都不知道其他参与人选择的策略，就称博弈的所有参与人为同时行动的。本节首先介绍反映博弈参与人策略性相互依存的“反应函数”，在此基础上，介绍两类适用于静态博弈的最简单均衡概念：(严格)占优策略均衡和重复剔除严格劣战略均衡，为即将在下一节介绍的Nash均衡作为准备。1.策略、反应策略与“策略性相互依存”——策略与“策略性相互依存”在博弈中，任何一名参与人都可以自由地选择其策略。但是，选择什么策略对于一位参与人来说才是最优的，则不是该参与人能够独自决定的，这要取决于其他参与人选择的策略。因此，在一个博弈的框架下，任何一名参与人的最优策略，都可以被看作是对其他参与人选择的策略作出的反应，也就是某种“反应策略”。博弈参与人之间的这种策略性相互依存，体现在每名参与人的策略对于其他参与人的策略的反应函数上。在一个静态博弈中，通过求解参与人i的支付最大化问题：max,isiiiiususs可以得到任意一名参与人策略is对于其他参与人策略is的反应函数：iiisss——反应函数(曲线)在此我们以一个例子，即上述“说实话”博弈，通过求解参与人(期望)支付最大化问题得到反应函数。Player2h,hh,tt,ht,tPlayer1H,H2.8，0.82.8，0.80.2，0.20.2，0.2H,T2.8，0.82.6，10.4，00.2，0.2T,H2.8，0.80.4，02.6，10.2，0.2T,T2.8，0.80.2，0.22.8，0.80.2，0.22首先考虑纯策略反应函数，也就是，假设参与人1和参与人2都只选择纯策略。通过考查参与人1的(期望)支付最大化问题，容易得到参与人1的策略对于参与人2的策略的反应对应：221222,,,,,,,,,,,,,,,,,,HHHTTHTTshhHHshtssTTsthHHHTTHTTsttorororororor同样的，通过考查参与人2的(期望)支付最大化问题，容易得到参与人2的策略对于参与人1的策略的反应对应：112111,,,,,,,,,,,,,,hhorhtsHHhtsHTssthsTHhhorthsTT更一般地，也可以直接考虑基于混合策略的反应函数。设参与人1选择,HH、,HT、,TH和,TT的概率分别为1、2、3和4，满足：1234,,,0,1，12341参与人2选择,hh、,ht、,th和,tt的概率分别为1、2、3和4，满足：1234,,,0,1，12341同样的，参与人1和参与人2的支付，可以表示为全部参与人选择的策略的函数：1112342.82.80.20.2212342.82.60.40.2312342.80.42.60.2412342.80.22.80.22112340.80.80.80.821240.80.231340.20.8412340.20.20.20.2基于参与人支付函数得到参与人反应函数的基本思路是：对于参与人i，讨论在参与人i采取3各种可能的混合策略组合条件下，选择自身各种纯策略时获得支付的大小。例如，对于参与人1而言，如果：12341234123412342.82.80.20.2max2.82.60.4,2.80.42.6,2.80.22.80.2那么纯策略,HH就是参与人1的最优策略。因此1,sHH，也可以表示成：11234,,,1,0,0,0s如果：12341234123412342.82.80.20.22.82.60.4max2.80.42.6,2.80.22.80.2那么纯策略,HH和,HT就是参与人1的最优策略，它们的任何线性组合也是参与人1的最优策略。这时参与人1的最优策略可以表示成：11234111,,,,1,0,0,0,1s在目前条件下，完成这一讨论是复杂的(尽管可以完成)，我们把这一工作留至本节末尾(第4小节)。2.占优策略与占优策略均衡——占优策略如果在一个博弈中，无论其他参与人选择何种策略，当一名参与人i选择其某个策略is时获得的支付，均(严格)大于该参与人选择任何其它策略时获得的支付，即,,iiiiiiussuss,iiiisSsS，则称is是参与人i的“(严格)占优策略(dominantstrategy)”。如果在一个博弈中，一名参与人有一个严格占优策略，等价于该参与人的策略对于其他参与人策略的反应函数是一个“常数”，即：,iiiiissssS意味着这时参与人i的最优策略实际上不对其他参与人策略作出反应。在“囚徒困境”的例子中，容易验证：对于每名囚徒而言，“坦白”都是一个严格占优策略。——占优策略均衡如果在一个博弈中，每名参与人都有(严格)占优策略——即iI，存在is，使得：4,,iiiiiiussuss(,,iiiiiiussuss),iiiisSsS，那么所有参与人的策略组合12,,,nssss构成该博弈的一个“(严格)占优策略均衡(dominantstrategyequilibrium)”。在“囚徒困境”的例子中，容易验证：每名囚徒都选择“坦白”是一个严格占优策略均衡。一般而言，博弈的均衡未必具有结果预测上的意义。但是，如果一个博弈存在严格占优策略均衡，那么可以预见该均衡将作为博弈的结果出现。问题是，大部分博弈不存在严格占优策略均衡。——另一个例子(来自Dixit和Nalebuff(1993))一名博弈论教授在其课堂上常做这样的实验：要求每位同学在1和2之间选择一个数字，并根据每位同学的选择给与最终的奖励，所有同学的选择和最终奖励之间的关系如下：选择1的学生人数选择1的学生获得的支付选择2的学生获得的支付0-$0.501$0.05$0.552$0.10$0.603$0.15$0.65………29$1.45$1.9530$1.50-据说，这个实验最早是一位德州农机大学的教授在其课堂上给出的，首先是不允许同学们相互讨论的情况，然后是允许讨论——无论如何，选择1的学生无法超过半数。一种说法是，一个集体最终选择的平均数越低，表明这个集体的整体智商水平越低；另一种说法是，一个集体最终选择的平均数越低，表明这个集体的整体道德水平更高。3.(严格)劣策略与重复剔除(严格)劣策略均衡——(严格)劣策略“(严格)劣策略((strictly)dominatedstrategy)”，是一个与(严格)占优策略相关的概念。如果在一个博弈中，无论其他参与人选择了怎样的策略组合iisS，当一名参与人i选择其某个策略is时获得的支付，(严格)小于该参与人选择某一其它策略时获得的支付，即iisS，使得：5,,iiiiiiussuss(,,iiiiiiussuss)iisS，则称is是参与人i的一个“(严格)劣策略”。在考虑混合策略的情况下，无论参与人i的一个策略is是被他的某个纯策略(严格)占优，还是被他的某个混合策略(严格)占优，都称is是参与人i的一个“(严格)劣策略”。如果只考虑参与人的纯策略(相当于假设参与人不能选择混合策略)，那么(严格)劣策略称为“(严格)劣纯策略”。考虑混合策略会减少参与人的(严格)劣策略。容易证明：如果is是参与人i的一个(严格)劣纯策略，那么is未必是参与人i的一个包含了混合策略的(严格)劣策略。——严格劣策略与“可理性化策略”严格劣策略有时又叫“不可理性化策略”，与之相对的概念叫“可理性化策略(rationalizablestrategy)”——称参与人i的一个策略is是他的“可理性化策略”，如果is不是参与人i的严格劣策略。正式的表达是：参与人i的一个策略is是他的“可理性化策略”，如果存在其他参与人的某些策略组合is，使得is是参与人i对于is的一个最优反应；否则，策略is是参与人i的“不可理性化策略”，也就是严格劣策略。可理性化策略的另外两个等价的表述是：(i)策略is是参与人i的一个可理性化策略，当且仅当“存在某种使得选择策略is成为参与人i的一个理性选择的情况”；或者(ii)策略is是参与人i的一个可理性化策略，当且仅当“存在某种支持参与人i选择策略is的‘信念(belief)’”。不可理性化策略：一个例子乙LR甲U3，00，1M0，03，1D1，11，0假设参与人乙以的概率选择纯策略“L”，以1的概率选择纯策略“R”，0,1。考虑6参与人甲选择其3个纯策略——“U”、“M”和“D”——为其带来的支付分别为：3U甲，31M甲，1D甲可见，当参与人乙以超过50%的概率选择“L”时，参与人甲的最优选择是“U”；当参与人乙以超过50%的概率选择“R”时，参与人甲的最优选择是“M”；当参与人乙以恰好50%的概率选择“L”时，参与人甲的最优选择是纯策略“U”和“M”的任意线性组合。无论如何，“D”都不会成为参与人甲的最优选择，因此是参与人甲的一个(考虑混合策略的)“不可理性化策略”或者“严格劣策略”。——剔除严格劣策略一般情况下，我们有理由认为参与人不会选择其严格劣策略(或者“不可理性化策略”)。有些博弈没有占优均衡，但通过剔除严格劣策略，我们可以简化博弈，甚至可以预测博弈的结果。一个例子：智猪博弈智猪博弈是另一个有关博弈的著名例子。假设一只大猪和一只小猪都是理性(并且满足共同理性)的，它们共同面对一个自动食槽：在每天一定的时刻，只要按下按钮食物就会投下。小猪按动等待大猪按动3，11，4等待6，-10，0问题是，食物投放口在食槽的一头，而按钮在食槽的另一头——因此，任何一头猪如果要去按动按钮，除了要付出往来于食槽两头的辛苦之外，还必须考虑从自己在食槽一头按下按钮到自己回到食槽另一头之间，食物可能已经被等在食槽另一头的猪吃的所剩无几。不妨设按下按钮后食槽能够投下6单位食物，而大猪相对于小猪有某种优势。我们可以用上7面的支付矩阵来刻画这一博弈：如果大猪和小猪同时去食槽一头按下按钮，并且同时回到食槽另一头争抢食物，大猪能够争得4单位，小猪能够争得2单位，并且，它们都付出了相当于1单位食物的辛苦；如果大猪前去按下按钮，待它回到食槽另一头时，小猪已经吃掉了3单位食物，在剩下的3单位食物中，大猪争得2单位，小猪争得1单位；如果小猪前去按下按钮，待它回到食槽另一头时，大猪已经吃完所有食物；如果两只猪都选择在投放食物一头等待，则都没有食物可吃。在这一博弈中，大猪的最优策略取决于小猪的策略：如果小猪选择“等待”，那么大猪应该前去按动按钮，这样它至少还能够得到2单位食物；如果小猪选择“按动”，则大猪的最优策略当然是“等待”。因为吃食的速度不如大猪，小猪的处境与大猪不同：如果大猪选择“等待”，那么小猪是否也应前去按动按钮？答案是否定的，原因是即使小猪前去按动按钮，待它回到食槽另一头时食物也已被大猪吃完——小猪只是白费力气。因此，“等待”是小猪的严格占优策略，而“按动”是小猪的严格劣策略。小猪无论如何都不会选择它的严格劣策略，意味着在博弈的支付矩阵中可以不必考虑小猪选择“按动”的情况，也就是，我们可以“剔除”小猪的严

第3讲---静态博弈

免费阅读已结束，点击付费阅读剩下 ... 页

阅读已结束，您可以下载文档离线阅读

新加坡a精密机械股份公司人力资源管理策略研究

中国邮政储蓄银行的信用风险管理研究

鲁星集团公司办公室工作流程

5S管理手册

医院感染管理工作手册({重点科室)

南充房地产市场调查报告

方舟商业中心项目定位

医疗照护失效模式与效应分析教育训练工作坊

汽车美容、租赁、维修行业创业策划书

绩效管理体系培训之(绩效兑现方案讲解)

相关文档

相关搜索