您好,欢迎访问三七文档
当前位置:首页 > 商业/管理/HR > 项目/工程管理 > 最大熵原理与应用(2011)
1最大熵原理来最大熵测量熵集中原理最小交叉熵原理最大熵原理应用2最大熵原理3•起源于统计力学•1957年,统计物理学家Jaynes根据信息熵的概念提出了一个利用部分信息确定随机变量集合概率分布的方法,称为最大熵原理。最大熵原理4•信息论提供了一个基于部分知识建立概率分布的构造性准则,并导致被称作最大熵估计的一种统计推断方法。这是根据给定信息得到的最小可能偏差的估计。•如果把统计力学看成统计推断的一种形式,而不是一种物理学理论,那么就会发现通常的计算原则,从确定分割函数开始,都是最大熵原理的直接结果。最大熵原理5•统计力学的所有已知结果,无论是平衡的还是不平衡的,基本上都是最大熵原理推导出的结果。最大熵原理6基本思想:•求满足某些约束的信源事件概率分布时,应使得信源的熵最大•可以使我们依靠有限的数据达到尽可能客观的效果•克服可能引入的偏差。最大熵原理7一般的最大熵原理应用于良好定义的假设空间和无噪情况且不完整的数据的推断问题。8最大熵原理应用于多个领域:•信号检测与处理•自然语言处理•生物医学•环境水利•气象学•经济学9最大熵原理的描述:在寻找满足某些约束的概率分布时,选择满足这些约束具有最大熵的概率分布。10约束所提供的信息是不完整的,称作部分信息;部分信息有若干种形式:•随机变量矩的约束•概率分布形状的约束11利用最大熵原理主要有以下两个依据:•主观依据•客观依据12•Δ主观依据。•“不充分理由原理”,也叫“中性原理”:如果对所求的概率分布无任何先验信息,没有任何依据证明某种事件可能比任何其他事件更优先,只能假定所有可能是等概率的。•对“不充分理由原理”进行扩展---最大熵原理。13Δ客观依据。•Jaynes提出熵集中定理:满足给定约束的概率分布绝大多数集中在使熵最大的区域。具有较大熵的分布具有较高的多样性,所以实现的方法数也更多,这样越有可能被观察到。•MaxPlank指出:大自然好像对较大熵的情况更偏爱。•在满足给定约束的条件下,事物总是力图达到最大熵。最大熵原理(离散情况)14•熵其中,•约束iniippHlog1niip11(),1,,niriiipgxarm()iipPXx离散最大熵分布定理15•满足约束达到最大熵的概率分布其中11exp[()],1,,rmirirpZgxin011exp()exp[()]rnmriirZgx01()mrirrgxipe16最大熵:mrrraZH1maxln•证求有约束极值待定常数1701111log(1)(1)[()]nniiiiimnririrriLppppgxamii,,1,0,18令0/ipL)](exp[11mririxgZprmrxgriiZ1)(1)exp(0Z)exp(rr19})](exp[11nimrirrxgZnimrxgrir11)(nimrxgrmkxgkniirririkxga11)(1)(1)(2021例随机变量集合X,符号集A={a1,a2,a3},随机变量集合Y,符号集B={b1,b2,b3}.满足:求使H(XY)达到最大值的XY的联合分布.123()1/2,()()1/4XXXpapapa123()2/3,()()1/6YYYpbpbpb22例解::()()()HXYHXHY1/31/61/61/121/241/241/121/241/2423TheKangarooProblem•Information:1/3ofkangarooshaveblueeyes,and1/3ofkangaroosareleft-handed•Problem:Onthebasisofthisinformationalone,estimatewhatproportionofkangaroosarebothblue-eyedandleft-handed24X:眼睛红,不红;Y:左撇子,非左撇子;解::()()()HXYHXHY()(1/3)HXH()(1/3)HYH25最大熵条件;解::()()()HXYHXHY11(,)1/933pxredyleft26Solutionusesasinglevariable,0≤x≤1/3buthowtochoose?Commonsensesaysx=1/9(i.e.nocorrelationofattributes)Istheresomefunctionofthe{pi}whichwhenmaximisedyieldsthispreferredsolution?TheKangarooProblem:2x2TruthTableNormalisation:p1+p2+p3+p4=1Constraints:p1+p2=1/3;p1+p3=1/327例某学校学生中,30%爱好音乐,60%爱好体育,10%爱好书法,问音乐、体育和书法都爱好的学生所占比例是多少?28例1做1000次抛掷骰子的试验,求抛掷点数的平均值。解由于抛掷次数很多,所以各点出现的频率近似等于出现的概率。假定在每次抛掷后,骰子6个面中的每一个面朝上的概率都相同,即为1/6。这里我们利用了“不充分理由原理”,因为除知道骰子有6个面外,我们没有其他任何别的信息。抛掷点数的平均值:m=(1+2+3+4+5+6)/6=3.5。#29例1(续)做1000次抛掷骰子的试验后得知抛掷点数的平均值为4.5,求骰子各面朝上的概率分布。解骰子的各面朝上的概率是不均匀的。除概率的归一性外,我们知道的信息仅有平均值,这对于确定6个面的概率是不完整的信息,必须利用最大熵原理。平均值的约束写为5.465432654321pppppp30计算得6151413121161514131211654325.46637.2644925.1615141312111iiip3475.0,2398.0,1654.0,1142.0,0788.0,0543.0(),,,,,(654321pppppp所求分布为计算31•一快餐店出售4种套餐:、鱼、鸡肉、面条和豆腐,单价分别为8元、3元、2元和1元。在某月通过调查得知,该快餐店套餐的总营业额为25万元,共有10万人次来就餐。试利用最大熵原理求本月4种套餐所占的销售份额。322.鱼、鸡肉、面条和豆腐四种销售份额分别记为:1234,,,pppp41logiiiHpp332.约束为12341pppp123483225/10pppp34解得83211183211118322.51.83591753581183211110.1011p31283211110.2478p21383211110.2964p1483211110.3546p连续情况•信源的熵满足36badxxpxph)(ln)(badxxp1)(()()brrapxgxdxamr,,2,1,连续最大熵分布定理•达到最大值的概率密度•其中•最大熵为37)](exp[)(11mrrxgZxprdxxgxpeZmrrbar)]([1mrrraZh1maxln最大熵测量381212111()()()(|)(|)NNNHXHYYYHYHYYHYYY为使试验次数最少,需要每次试验的熵最大最大熵测量例•一般性假币称重鉴别问题:设有n枚硬币,其中仅有一枚假币,在已知或未知假币与真币之间重量关系两种条件下,通过用无砝码天平称重的方法鉴别假币,求所需的最少称重次数。39最大熵测量例•在每次天平称重时,天平的两端应放置相同数目的硬币,会出现3种称重结果:平衡(假币未参与称重),左倾(天平左端重),右倾(天平右端重);每次天平称重所获得的最大信息量为(称重结果等概率)40最大熵测量例•命题1:设有n()枚硬币,其中有一假,且知其较轻或较重;那么,发现假币的最少称重次数k满足:411log/log3knk133kkn最大熵测量例•命题2:设有n()枚硬币,其中有一假,且满足:①这些硬币分成两组A、B;A有a枚,B有b枚,a+b=n;②若假币属于A,则其较轻;若假币属于B,则其较重;那么,发现假币的最少称重次数k满足:133kkn1log/log3knk最大熵测量例•命题3:•设有n()枚硬币,其中有一假,但不知轻重,还有另外的一枚真币;那么,称k次就能发现假币。431(31)/2(31)/2kkn最大熵测量例•命题4:•设有n()枚硬币,其中有一假,但不知轻重;那么,称k次就能发现假币。441(33)/2(33)/2kkn最大熵测量例•将硬币编号:1,2,3,4,5,6,7,8,9,10,11,12。三次称重安排如下:•称重•左盘右盘其它•11,2,3,45,6,7,89,10,11,12•21,6,7,85,10,11,129,2,3,4•35,6,10,29,7,11,31,8,12,4称重结果:0:平衡,1:左倾,-1:右倾,45•3次称重安排可表示成矩阵形式(矩阵上一行是硬币序号):其中,每行为称重安排,1:放左盘,-1:放右盘,0:不放。每一列为检测结果,检测结果对应的硬币序号为假币。如果结果与上面符合,则对应重量为重,如果结果不包含在上述表中,则1、-1互换,得到的重量为轻。例如,若称重结果为110则1号为假币,且重量较重;若称重结果为1-10,1与-1交换为-110,则8号为假币,且重量较轻。•4612345678910111211111111000010001111011101101110111047熵集中定理•熵集中定理是最大熵原理的依据。可以证明,具有最大熵的概率分布具有最多的实现方法数,因此更容易被观察到,而且是满足某些条件的分布所产生的熵绝大部分在最大熵附近。4849假设做N次随机实验,每次实验有n个结果,每种结果出现的次数为,设每种结果出现的概率为,那么当N足够大时,有。因此,实现某种特殊的概率集合的方法数为熵集中定理)!()!(!),,(11nnNpNpNppWipiiNpN),,1,{nipiiN50斯特灵公式:熵集中定理NeNNN)(2!HppWNiiiNlogloglim1NHAeW~•方法数最多的分布最容易观测到•方法数与熵呈指数关系•对应最大熵的分布最容易观测到•熵的另一种含义:表征某种分布实现方法数的多少,熵大则表明方法数大。当试验次数足够多时,熵等于方法数的对数被试验总数除。5152•满足约束的一组概率所产生的熵在如下范围:••其中•max1max)),,(HppHHHn熵集中定理)1(22FHNk53当N足够大时,渐近为维数为k(=n-m-1,n为信源符号数,m为约束方程个数),置信度为1-F的分布。通常,在很高的置信度的条件下,的值很小。2HN2H54555657许多专家学者从不同的角度和侧面研究和定义信息。据说到目前为止已有上百种信息的定义或说法。例如,“信息是事物之间的差异”,“信息是物质与能量在时间与空间分布的不均匀性”,“信息是收信着事先不知道的东西”等等。58求置信度95%和99.99%时信源熵的范围。根据题意,为自由度6-1-1=4的分布,查表,(1)在置信度95%条件下,得,信源熵的范围:1.609H1.614(奈特)。#(2)在置信度99.99%条件下,得,信源熵的范围:1.602H1.614(奈特)。#2,488.92HN00474.0H012.0)9999.0(124
本文标题:最大熵原理与应用(2011)
链接地址:https://www.777doc.com/doc-1839230 .html