理性双矩阵经济博弈的期望均衡分析

几个常见理性双矩阵经济博弈的期望均衡分析1姜殿玉淮海工学院经济管理系，江苏，连云港，222001摘要：关于完全信息静态博弈，有纯Nash均衡，混合Nash均衡和相关均衡等概念。如果每个局中人除了博弈的结构以外其他一无所知是全体局中人的共同知识（称为完全静态的），那么期望均衡是在极大熵准则是全体局中人的共同知识的条件下的一种均衡。本文首先介绍理性对策及其期望均衡的概念，然后由此分析了在文献中经常出现的一些经典博弈的期望均衡的结果，并与混合Nash均衡结果进行比较。说明对于完全静态博弈，当局中人比通常情况下聪明（极大熵准则是他们的共同知识）的时候，其决策结果比混合Nash均衡更为确定和具有理性。关键词：极大熵准则，完全静态博弈，混合Nash均衡，期望均衡ExpectedEquilibriumAnalysisonSomeRationalEconomicsBi-matrixGamesJIANGDianyuSchoolofEconomicalManagement,HuaihaiInstituteofTechnology,Lianyungang,222001,ChinaAbstract:Inastaticgamewithcompleteinformation,wehavetheconceptsofpureNashequilibria,mixedNashequilibriaandcorrelatedequilibria.Ifitisalltheplayers’commonknowledgethateveryplayerknowsnothingexceptstructureofthegame,calledcompletelystatic,thenasocalledexpectedequilibriumwasdefinedthatisanequilibriuminthecasethatmaximumentropyprincipleisalltheplayers’common.Inthispaper,weintroducetheconceptsofarationalgameanditsexpectedequilibria,thenanalysistheexpectedequilibriainsomeclassicalgamesinmanyliteratures.WecomparetheexpectedequilibriaandmixedNashequilibriainthesegamesaswell.Theresultsshowthatforacompletelystaticgametheplayers’decisionresultsaremorecertainandrationaliftheyaremoreintelligent,i.e.maximumentropyprincipleistheircommon.Keywords:maximumentropyprinciple;completelystaticgame;mixedNashequilibrium;expectedequilibrium1引言1基金项目：国家自然科学基金（78970025）作者简介：姜殿玉（1955-），男，辽宁凌源市人，教授。研究方向：博弈论与决策经营分析。传统的完全信息静态博弈假定（1）局中人的集合，（2）每个局中人的行动集合和（3）博弈的效用函数是全体局中人的共同知识[1]。但是并不要求全体局中人的共同知识的集合中不含有其他成分。如果这种博弈不含有其他成分，那么就称为完全静态博弈[2-4]。如果局中人的共同知识集合中有并且仅仅有（1），（2），（3）和（4）极大熵准则[5]：如果局中人对于可能发生的随机事件仅仅有一部分信息，那么他在决策时应该选择使得不知道的信息的不确定性达到最大的策略，那么这个博弈称为理性博弈[2-4]。文献[2，7]关于理性博弈引进了期望均衡的概念，并且给出其算法。文献[2]对于经典的博弈问题——囚徒困境、夫妻争执和鹰-鸽博弈用期望均衡的概念进行了探讨，所得结论是经典均衡无法得到的，并且更符合实际。本文首先介绍理性对策及其期望均衡的概念，然后由此分析了在文献中经常出现的一些经典博弈的期望均衡的结果，并与混合Nash均衡结果进行比较。说明对于完全静态博弈，当局中人比通常情况下聪明（极大熵准则是他们的共同知识）的时候，其决策结果比混合Nash均衡更为确定和具有理性，且均衡的计算非常简洁。2、理性双矩阵博弈设1和2是两个局中人，{1,2,,}Im和{1,2,,}Jn分别是局中人1和2的行动集合。()ijmnAa和()ijmnBb分别是局中人1和2的支付矩阵，即当剧中人1和2分别采用行动iI和jJ时，局中人1和2分别得到效用ija和ijb。设单纯形11{(,,)|0,1,2,,;1}mmiiiXxxximx，11{(,,)|0,1,2,,;1}nnjjjYyyyjny分别是局中人2和1的判断集合[9]，即1(,,)mxx表示局中人2判断局中人1以概率ix选择行动iI，1(,,)nyy表示局中人1判断局中人2以概率jy选择行动jJ。设是可能取值为1，2，……，n的随机变量，其概率分布列为ipi}Pr{，ni，，，21，那么对于不同的概率分布列，随机变量取值的不确定性可能不同．例如对于三个服从0-1分布的随机变量0}0Pr{1，1}1Pr{1；3.0}0Pr{2，7.0}1Pr{2；5.0}0Pr{3，5.0}1Pr{3，1的不明确性最小：1几乎必然取1；2的不明确性次之，而3的不明确性最大：以同样的可能性取0和1．给定随机变量的分布列ipi}Pr{，ni，，，21，我们用符号),,(1nppH表示其不明确性．1948年，Shannon证明了[10]niibinppCppH11log),,(，这里规定00log0b，式中的C是正常数，通常可以取作1．),,(1nppH称为Shannon熵．对于取定的底)10(bb，记niibinbppppH11log),,(．随机变量的Shannon熵是这个随机变量在一次试验中究竟取什么值的不明确性或“模糊度”的度量，也就是要准确判定这个随机变量究竟取什么值所需要的平均信息量．定理1[11]（1）1),,(01nnppH，（2）0),,(1nnppH当且仅当存在着ni01使得0,,,1,0;10iinippii，（3）1),,(1nnppH当且仅当ninpi,,1,1．定义1一个双矩阵对策(,)(,)ijijmnABab称为完全静态的，如果局中人1，2的共同知识集合为(,){1,2;,;(,)}CABIJAB。极大熵准则（PME）：对于完全静态博弈，局中人1（或2）判断局中人2（或1）以概率jy（或ix）的随机变量1(,,)nyy（或1(,,)mxx）的Shannon熵最大。定义2一个双矩阵对策(,)(,)ijijmnABab称为理性的，如果局中人1，2的共同知识集合为(,){1,2;,;(,);MEP}CABIJAB。给定理性双矩阵对策(,)(,)ijijmnABab，因为局中人1（或2）判断对方以概率1n（或1m）采取行动jJ（或iI），所以当局中人1（或2）采取行动iI（或jJ）时，其赢得的主观期望为111()nijjEian（或211()mijiEjbm）。局中人1（或2）应该选择使得其主观期望1()Ei（或2()Ej）最大的行动iI（或jJ）。定义3称111{|()max()}imiIEiEi221{|()max()}jnjJEjEj为理性博弈(,)(,)ijijmnABab的期望均衡集合。显然期望均衡集合总是存在的并且可交换的，所以总可以实现。3．小偷-守卫博弈[8]一个小偷欲偷窃有一个守卫看守的仓库。如果小偷偷窃时守卫在睡觉，则小偷就能得手，偷得价值为v的赃物；如果小偷偷窃时守卫没有睡觉，则小偷就会被抓住。设小偷被抓住后要坐牢，负效用为p。守卫睡觉而未遭偷窃有s的正效用。因睡觉被解雇的负效用为d。如果小偷不偷，则他既无得也无失。守卫不睡觉意味着出一分力挣一分钱，也无得失。则赢得矩阵为(,)(,0)(0,)(0,0)vdps守卫睡觉不睡小偷偷不偷。这个例子出现在文献[8]（pp.94），起源于Selten,R教授于1996年3月在上海的一次演讲，作者用图解法分析了这个博弈的混合Nash均衡。显然，这个对策没有纯Nash均衡。按照传统方法，可得混合Nash均衡和失盗的概率分别为((,),(,))sdpvsdsdvpvp，spsdvp。解释：s是固定的。当d较大时，对于守卫失盗后果严重时（比如守卫知道自己被解雇以后再也找不到待遇与现工作相当的新工作，而只能比现工作差，则守卫必然珍惜现有工作，尽职尽责不睡觉）是双方的共同知识。小偷在行窃的时候就要谨慎行事，故行窃的概率较小。当v固定，p较小时，小偷被抓住的惩罚相对于仓库里的物品较轻是双方的共同知识，那么守卫就会知道小偷偷的可能性较大，从而守卫睡觉的可能性较小。当p固定，v较小时，仓库里的物品比较廉价时说方的共同知识。守卫就会知道小偷下手的可能性不大，从而守卫睡觉的可能性较大。实施方法：如果小偷有M次对这个仓库起贼心，那么他最好随机选择[]sMsd次下手。守卫在N天值班中最好随机选择[]pNvp天睡觉。这样，失盗的概率是spsdvp。现在做期望均衡分析。易知11(1)()2Evp，11(2)(00)02E；21(1)()2Esd，21(2)(00)02E。情况1．当,vpsd时，11(1)(2)EE，22(1)(2)EE。说明当物品较贵重（比如仓库是黄金库），小偷被抓惩罚较轻（比如判刑一年）；对于守卫失盗也无所谓时（比如守卫知道即使被解雇，也可以马上找到新工作其待遇不低于当时待遇），期望均衡为（偷，睡觉）。结果是失盗。情况2．当,vpsd时，11(1)(2)EE，22(1)(2)EE。说明当物品较廉价（比如都是发泡塑料废品。），小偷被抓惩罚较重（判刑一年）；对于守卫失盗后果严重时（比如守卫知道自己被解雇以后再也找不到待遇与现工作相当的新工作，而只能比现工作差，则守卫必然珍惜现有工作，尽职尽责不睡觉）。期望均衡为（不偷，不睡觉）。情况3．当,vpsd时，11(1)(2)EE，22(1)(2)EE。说明当物品较廉价，小偷被抓惩罚较重；对于守卫失盗也无所谓时，期望均衡为（不偷，睡觉）。情况4．当,vpsd时，11(1)(2)EE，22(1)(2)EE。说明当物品较贵重，小偷被抓惩罚较轻；对于守卫失盗后果严重时，期望均衡为（偷，不睡觉）。4．穷人-富人巡逻博弈(见[12]pp.11-12)在一个小区里，住着一个富人，一个穷人。组织夜间巡逻能够有效防止偷盗，但夜间巡逻的成本为c。假设富人的财产为r，穷人的财产为p，显然0,2prpc。如果两人都巡逻，那么巡逻成本由两人均摊；如果只有一个人巡逻，那么成本由巡逻者承担。如果富人和穷人都巡逻，富人的收益为2rc，穷人收益为2pc。如果穷人巡逻，富人“搭便车”不巡逻，那么富人收益为0rr；穷人收益为pc。如果富人巡逻，而穷人不巡逻，那么富人的收益为rc。穷人“搭便车”财产得保，受益为0pp。如果两人都不巡逻，则两人财产都被偷光，收益都是零。于是得到赢得矩阵为(2,2)(,)(,)(0,0)rcpcrcprpc穷人巡逻不巡逻富巡逻人不巡逻。纯Nash均衡为（不巡逻，巡逻）和（巡逻，不巡逻）。但是这两个Nash均衡是有分歧的，因而无法实现。下面讨论几种情况（巡逻成本理解为雇用保安的工资）1、当32cpr时，有()()

理性双矩阵经济博弈的期望均衡分析

免费阅读已结束，点击付费阅读剩下 ... 页

阅读已结束，您可以下载文档离线阅读

信息技术与英语教学整合的研究谢爱英(

电子监管相关知识培训

xx地产新世纪项目品牌整合推广案之捆绑篇doc27(1)

XXXX年重庆大渡口区周房地产市场简报(513-519)

工程管理部经理3

交通运输部领导春节期间慰问我院在部路网中心值班的工作人员

矿井火灾防治(g)

XXXX建设工程设计合同范本

总公司合同管理规定

质量三要素概念

相关文档

相关搜索