您好,欢迎访问三七文档
信源及信源熵介绍2内容第一节信源的描述和分类第二节离散信源熵和互信息第三节连续信源的熵和互信息第四节离散序列信源的熵第五节冗余度3本章重点离散/连续信源熵和互信息第二章信源及信源熵本章难点•离散序列有记忆信源的熵4第一节信源的描述和分类一、香农信息论的基本点用随机变量或随机矢量来表示信源,运用概率论和随机过程的理论来研究信息。二、信源的分类按照信源发出的消息在时间上和幅度上的分布情况可将信源分成离散信源和连续信源两大类{信源离散信源连续信源5第一节信源的描述和分类1.连续信源连续信源是指发出在时间和幅度上都是连续分布的连续消息(模拟消息)的信源,如语言、图像、图形等都是连续消息。2.离散信源离散信源是指发出在时间和幅度上都是离散分布的离散消息的信源,如文字、数字、数据等符号都是离散消息。离散信源{离散无记忆信源离散有记忆信源{{发出单个符号的无记忆信源发出符号序列的无记忆信源发出符号序列的有记忆信源发出符号序列的马尔可夫信源6第一节信源的描述和分类•离散无记忆信源离散无记忆信源所发出的各个符号是相互独立的,发出的符号序列中的各个符号之间没有统计关联性,各个符号的出现概率是它自身的先验概率。•离散有记忆信源离散有记忆信源所发出的各个符号的概率是有关联的。•发出单个符号的信源发出单个符号的信源是指信源每次只发出一个符号代表一个消息;•发出符号序列的信源发出符号序列的信源是指信源每次发出一组含二个以上符号的符号序列代表一个消息。7第一节信源的描述和分类•发出符号序列的有记忆信源发出符号序列的有记忆信源是指用信源发出的一个符号序列的整体概率(即联合概率)反映有记忆信源的特征。•发出符号序列的马尔可夫信源发出符号序列的马尔可夫信源是指某一个符号出现的概率只与前面一个或有限个符号有关,而不依赖更前面的那些符号,这样的信源可以用信源发出符号序列内各个符号之间的条件概率来反映记忆特征。8第一节信源的描述和分类三、先验概率及概率空间的形式•符号的先验概率ix一个离散信源发出的各个符号消息的集合为},,,{21nxxxX,它们的概率分别为)}(,),(),({21nxpxpxpP,)(ixp为符号ix的先验概率。通常把它们写到一起,称为概率空间:9,第一节信源的描述和分类)()()(2121nnxpxpxpxxxPX显然有1)(,0)(1niiixpxp10第二节离散信源熵和互信息问题:什么叫不确定度?什么叫自信息量?什么叫平均不确定度?什么叫信源熵?什么叫平均自信息量?什么叫条件熵?什么叫联合熵?联合熵、条件熵和熵的关系是什么?11什么叫后验概率?什么叫互信息量?什么叫平均互信息量?什么叫疑义度?什么叫噪声熵(或散布度)?数据处理定理是如何描述的?熵的性质有哪些?第二节离散信源熵和互信息12定义:一个随机事件的自信息量定义为其出现概率对数的负值。即:)(log)(iixpxI2.2.1自信息量1.自信息量说明:a.因为概率越小,的出现就越稀罕,一旦出现,所获得的信息量也就较大。由于是随机出现的,它是X的一个样值,所以是一个随机量。而是的函数,它必须也是一个随机量。)(ixpixix)(ixIix13b.自信息量的单位的确定在信息论中常用的对数底是2,信息量的单位为比特(bit);若取自然对数,则信息量的单位为奈特(nat);若以10为对数底,则信息量的单位为笛特(det)。这三个信息量单位之间的转换关系如下:1nat=log2el.433bit,ldet=log2103.322bit2.2.1自信息量14几个例子i.一个以等概率出现的二进制码元(0,1)所包含的自信息量为:I(0)=I(1)=-log2(1/2)=log22=1bit2.2.1自信息量ii.若是一个m位的二进制数,因为该数的每一位可从0,1两个数字中任取一个,因此有2m个等概率的可能组合。所以I=-log2(1/2m)=mbit,就是需要m比特的信息来指明这样的二进制数。15定义:随机事件的不确定度在数量上等于它的自信息量.说明:a.两者的单位相同,但含义却不相同。b.具有某种概率分布的随机事件不管发生与否,都存在不确定度,不确定度表征了该事件的特性,而自信息量是在该事件发生后给予观察者的信息量。2.不确定度2.2.1自信息量16c.一个出现概率接近于1的随机事件,发生的可能性很大,所以它包含的不确定度就很小;反之,一个出现概率很小的随机事件,很难猜测在某个时刻它能否发生,所以它包含的不确定度就很大;若是确定性事件,出现概率为1,则它包含的不确定度为0。2.2.1自信息量17两个消息xi,yj同时出现的联合自信息量注意:a.当xi,yj相互独立时,有P(xiyj)=P(xi)P(yj),那么就有I(xiyj)=I(xi)+I(yj)。b.xiyj所包含的不确定度在数值上也等于它们的自信息量。)(log)(jijiyxpyxI2.2.1自信息量18定义:在事件yj出现的条件下,随机事件xi发生的条件概率为,则它的条件自信息量定义为条件概率对数的负值:)/(log)/(jijiyxpyxI注意:在给定yj条件下,随机事件xi所包含的不确定度在数值上与条件自信息量相同,但两者含义不同。2.2.1自信息量3.条件自信息量)/(jiyxp19例2-2-1英文字母中“e”出现的概率为0.105,“c”出现的概率为0.023,“o”出现的概率为0.001。分别计算它们的自信息量。解:“e”的自信息量I(e)=-log20.105=3.25bit“c”的自信息量I(c)=-log20.023=5.44bit“o”的自信息量I(o)=-log20.001=9.97bit2.2.1自信息量20一个布袋内放100个球,其中80个球是红色的,20个球是白色的,若随机摸取一个球,猜测其颜色,求平均摸取一次所能获得的自信息量。解:依据题意这一随机事件的概率空间为2.08.021xxPX2.2.2离散信源熵例2-2-221其中:x1表示摸出的球为红球事件,x2表示摸出的球是白球事件.1)如果摸出的是红球,则获得的信息量是I(x1)=-log2p(x1)=-log20.8bit2)如果摸出的是白球,则获得的信息量是I(x2)=-log2p(x2)=-log20.2bit3)如果每次摸出一个球后又放回袋中,再进行下一次摸取。则如此摸取n次,红球出现的次数为np(x1)次,白球出现的次数为np(x2)次。随机摸取n次后总共所获得的信息量为np(x1)I(x1)+np(x2)I(x2)224)则平均随机摸取一次所获得的信息量为H(X)=1/n[np(x1)I(x1)+np(x2)I(x2)]=-[p(x1)log2p(x1)+p(x2)log2p(x2)]212)(log)(iiixpxp=0.72比特/次说明:1)自信息量I(x1)和I(x2)只是表征信源中各个符号的不确定度,一个信源总是包含着多个符号消息,各个符号消息又按概率空间的先验概率分布,因而各个符号的自信息量就不同。所以自信息量不能作为信源总体的信息量。232)因为X中各符号xi的不确定度I(xi)为非负值,p(xi)也是非负值,且0p(xi)1,故信源的平均不确定度H(X)也是非负量。3)平均不确定度H(X)的定义公式与热力学中熵的表示形式相同,所以又把H(X)称为信源X的熵。熵是在平均意义上来表征信源的总体特性的,可以表征信源的平均不确定度。定义:离散信源熵H(X)(平均不确定度/平均信息量/平均自信息量)定义信源的平均不确定度H(X)为信源中各个符号不确定度的数学期望,即:iiiiiixpxpxIxpXH)(log)()()()(•单位为比特/符号或比特/符号序列244)某一信源,不管它是否输出符号,只要这些符号具有某些概率特性,必有信源的熵值;这熵值是在总体平均上才有意义,因而是一个确定值,一般写成H(X),X是指随机变量的整体(包括概率分布)。5)信息量则只有当信源输出符号而被接收者收到后,才有意义,这就是给予接收者的信息度量,这值本身也可以是随机量,也可以与接收者的情况有关。6)当某一符号的概率为零时,在熵公式中无意义,为此规定这时的也为零。当信源X中只含一个符号时,必定有,此时信源熵H(X)为零。ixipiipplogiipplogx1)(xp25例2-2-3电视屏上约有500×600=3×105个格点,按每点有10个不同的灰度等级考虑,则共能组成n=103x10个不同的画面。按等概率1/103x10计算,平均每个画面可提供的信息量为510321210log)(log)()(niiixpxpXH=3×105×3.32比特/画面26有一篇千字文章,假定每字可从万字表中任选,则共有不同的千字文N=100001000=104000篇仍按等概率1/100001000计算,平均每篇千字文可提供的信息量为H(X)=log2N=4×103×3.321.3×104比特/千字文比较:•“一个电视画面”平均提供的信息量远远超过“一篇千字文”提供的信息量。27例2-2-4设信源符号集X={x1,x2,x3},每个符号发生的概率分别为p(x1)=1/2,p(x2)=l/4,p(x3)=1/4。则信源熵为H(X)=1/2log22+1/4log24+1/4log24=1.5比特/符号28例2-2-5该信源X输出符号只有两个,设为0和1。输出符号发生的概率分别为p和q,p+q=l。即信源的概率空间为qpPX10则二元信源熵为H(X)=-plogp-qlogq=-plogp-(1-p)log(1-p)=H(p)2900.20.40.60.8110.80.60.40.2pH(p)30说明:信源信息熵H(X)是概率p的函数,通常用H(p)表示。p取值于[0,1]区间。H(p)函数曲线如图所示。从图中看出,如果二元信源的输出符号是确定的,即p=1或q=1,则该信源不提供任何信息。反之,当二元信源符号0和1以等概率发生时,信源熵达到极大值,等于1比特信息量。31几个概念定义:在给定yj条件下,xi的条件自信息量为I(xi/yj),X集合的条件熵H(X/yj)为H(X/yj)=在给定Y(即各个yj)条件下,X集合的条件熵H(X/Y)定义为H(X/Y)==)/()/(jiijiyxIyxpjijijijjjjyxIyxpypyXHyp,)/()/()()/()(jijijiyxIyxp,)/()(1.条件熵32相应地,在给定X(即各个xi)的条件下,Y集合的条件熵H(Y/X)定义为H(Y/X)=jiijjijiijjixypyxpxyIyxp,,)/(log)()/()(2.联合熵定义:联合熵是联合符号集合XY上的每个元素对xiyj的自信息量的概率加权统计平均值。定义为:H(XY)=说明:联合熵H(XY)表示X和Y同时发生的不确定度。jijijijijijiyxpyxpyxIyxp,,)(log)()()(33联合熵H(XY)与熵H(X)及条件熵H(X/Y)之间存在下列关系1)H(XY)=H(X)+H(Y/X)2)H(XY)=H(Y)+H(X/Y)1)证明:由)/()()(ijijixypxpyxp)/()(jijyxpypjijiyxp,)()(iixpjjyp)(34所以)/()(log)(,ijijijixypxpyxp)/(log)(,ijjijixypyxp)(log)(iiixpxp)(log)(,ijijixpyxp)/(log)(,ijjijixypyxp)/()(XYHXH□)(XYHjijijijijijiyxpyxpyxIyxp,,)(log)()()(352)证明:由)/()()(ijijixypxpyxp)/()(jijyxpypjijiy
本文标题:信源及信源熵介绍
链接地址:https://www.777doc.com/doc-7723426 .html