您好,欢迎访问三七文档
第六章PCA&ICA§6-4信息熵(InformationEntropy)1.离散事件的熵(Entropy)一、熵的定义与概念消除的不确定性(Uncertainty)越多则获得的信息量越大。“信息量”用“熵”来度量,其定义为:举例:一件事情发生前其结果是个悬念,即,其结果有一定的不确定性。•国家足球队与五邑大学队比赛,胜、负的可能性为1:0,不确定性为0;•国家队和韩国队比赛,胜、负的可能性为0.3:0.7,有一定的不确定性;•国家队和伊朗队比赛,胜、负的可能性为0.5:0.5,不确定性很强;比赛之前可以根据经验对结果作出预测但不能肯定,即,预测的结果中含有不确定性。比赛后不确定性消失,即,观看者得到了“信息”从而消除了赛前的不确定性,赛前不确定性越强,比赛过程给出的信息“量”越大。(6-52)式中:X表示随机事件,ai是X的可能的取值;P(X=ai)是X取值为的概率。11220loglog1log1limlog0xHXPXaPXaPXaPXaxx0.3log0.30.7log0.70.2653HX0.5log0.50.5log0.50.3HX2.连续随机变量的熵——微熵(DifferentialEntropy)引申(6-52)对离散随机变量熵的定义,连续随机变量X的熵可表示为:简单性质:3.变换的熵随机矢量的熵事件X在连续范围内取值,其概率密度函数为:p(x)。当Dx很小时X在Dx上取值的概率近似为:Dxp(x),•概率分布p(x)的范围越窄,则,熵H(x)越小;•微熵可能小于0。随机矢量的分布密度函数,即,矢量中各个分量的联合分布:(6-53)(6-54)(6-55)其微熵为:(6-55)随机变量x1、x2、…、xM相互独立时,有:变换的概率密度函数设随机矢量X和Y之间存在映射关系:(6-57)如果映射G可逆,即:存在且唯一。则密度函数PY(Y)可由PX(X)导出:(6-58)式中JG(X)是雅可比(Jacobian)矩阵,定义为:(6-59)其中detJG(X)表示雅可比行列式。当G为线性函数时,即:且存在时,简化为:(6-60)变换的熵,即,随机变量函数的熵:信息传输变换中“熵不减原理”:在任何传输和变换过程中,信息熵不会减小。即,任何传输和变换都不能减少问题的“不确定性”,也就是,任何传输和变换本身不可能增加信号的信息量。或者说,任何数学手段都不能使信号中的信息量增加。熵,即密度函数倒数的对数的数学期望。随机矢量Y的熵可以表示为:(6-61)可以证明所以,必有:此即:信号尺度对熵的数值的影响设D为对角矩阵,则Y=DX退化为一尺度变换:由公式(6-61)可以得到Y的熵为:这表明微熵是尺度敏感的,即,同一个随机矢量用不同尺度(量纲)的观测结果计算得到的熵大小不同。为了消除这种现象,通常将信号做归一化处理,使之具有相同尺度:4、互信息4.1由熵定义的互信息4.2库尔贝克一莱布勒散度(Kullback-Leibler—K-LDivergence)K-L散度非负,因此,可以作为两个随机变量或随机矢量之间的“距离”即:随机变量之间的信息度量,是衡量随机事件、信号之间关联程度的测度。(6-63)显然,当相互独立时,互信息为0。元素之间的互信息定义为:随机矢量和两个M维概率密度函数的K-L散度定义为:(6-64)其缺点是具有不对称性,即:设,已知随机变量x的若干个函数的数学期望:则,满足条件:且具有最大熵的分布函数p(x),就是关于该随机变量的最大熵分布。求解该优化问题得到的解为:(6-66)(6-67)由(6-67)和(6-66)可以确定待定系数ak,求出ak后(6-67)式就是随机变量的概率密度函数的估计。5、最大熵分布——从数据估计随机变量概率分布的正则化方法之一。上述问题可以表示成一个优化问题:例如,设:则:并且,假设其估计为:并且,假设其估计为:于是,待求的密度分布函数形式为:这个结论说明:给定方差的情况下,正态分布比其他任何分布的熵都大。显然,p0(x)是一个均值为零、方差为s2的高斯分布,可直接得到:负熵的定义为:(6-69)式中,XGauss是与随机变量X具有同样协方差矩阵的Gauss随机矢量,其熵为:(6-70)其中S为已知的协方差矩阵,detS是协方差矩阵的行列式。假设D是可逆方阵,包括对角矩阵的情况,则变换Y=DX的负熵为:6、负熵已知:这表明负熵具有满秩变换的不变性和尺度变换的不变性。负熵可以用来评价一个随机变量的Gauss性,负熵越大则随机变量的分布与Gauss分布差距越远。设x是为0均值、单位方差的随机变量,且其密度函数p(x)接近Gauss分布。若非0均值、单位方差,则归一化处理思路:将标准Gauss分布展开成多项式形式,然后,调整多项式的系数使之有限和在若干性质上逼近待估计的随机变量x,得到的部分和即为x的分布函数的估计。标准Gauss分布的Chebyshev-Hermit多项式展开:(6-71)式中:j(x)为标准正态分布;C3,C4分别为三、四阶Chebyshev-Hermiton多项式;分别为随机变量x的偏度峭度。取上式前三项,并代入微熵表达式:(6-72)当待估计的分布p(x)很接近Gauss分布时k3和k4很小,于是,由近似公式:二、熵的估计——用多项式密度展开式估计熵和负熵1.密度函数估计即,随机变量熵和负熵的估计。。应用到(6-72)式得到:利用Chebyshev-Hermit多项式的性质对上式进行简化,最终可以得到:(6-73)和(6-74)导致PCA算法失败的一种情况:一、独立元分析(ICA——IndependentComponentsAnalysis)的概念信号源:观测信号:观测结果:即:(6-75)§6-5独立元分析的概念及数据白化处理(whiten)1.盲源分离问题(BSS-BlindSourcesSeparation)盲源分离:仅由观测信号X估计源S和矩阵A。显然(6-75)式的解不唯一,因此,必须附加约束条件。这里,将s1、s2、…、sM两两相互独立,即,互信息为0作为附加的约束条件,因此被称为“独立元分析”。ICA是盲源分离的主要方法之一。2、独立元分析的前提条件3、独立元分析解决(6-75)式所示BSS问题的局限性:(1).独立元之间相互统计独立,即:(2).每个独立元都必须是非高斯分布的,即:(3).混合矩阵A为方阵,即,独立元的个数与观测信号的个数相同(非必要)。(1).可以得到0均值、方差归一化的源信号波形,但不能确定其原始幅度。设有对角矩阵:令:(6-76)随机变量之间的独立性要借助高斯性进行度量,而度量高斯性时首先需要进行归一化。而经过归一化后但dm.sm与sm的高斯性相同,而当dm.sm满足独立性条件时AD-1必然满足(6-76)式。可见,在独立性条件下若sm和A使等式(6-75)成立,则任给非0对角矩阵D都可以使等式(6-76)成立。(2).不能得到独立元的原始排序关系。白化处理的步骤如下:二、数据的白化处理观测数据表示为:1、正交化——即,利用PCA进行正交变换,消除数据之间的相关性。(1)、对原始数据去均值:其中:是各个观测数据的均值。去均值的目的是为了消除直流量对运算过程的干扰:(4)、正交变换经过以上正交化处理后,X中每行之间的协方差估计等于0,并且,各行的均值也为0。但一般情况下方差不为1,新数据每行的方差(标准差的平方)就是相应特征值。(2)、对去均值后的数据求其协方差矩阵:其中:分别为正交变换矩阵和特征值矩阵。(3)、对协方差矩阵做特征值分解,得到:2、方差归一化其中:为第m个正交化变量的均值和均方差(标准差)的估计,由正交化后的数据矩阵中的各行数据求的。经过以上正交化处理后的数据,已经相互不相关,但其方差并不相等。为了使其在各种高斯性度量上有可比性,还需要将他们的方差归一化。实际计算时为了避免累计的计算误差,可同时进行去均值运算:即:任意给定:由于s1,s2,…,sM均非高斯,因此,任意xm都比任意sm更高斯,即:令:即:三、基于非高斯性的ICA1.基本思想这里只考虑未知源与观测变量数量相同的情况,即M=N的情况。假设待求的独立分量,即,未知源分别为:其中随机变量s1、s2、…、sM相互独立。而观测得到的随机变量为:源与观测结果之间关系:显然,若:则必然有:而当B≠A时,分以下两种情况考虑:则有:,即:即:假设有非奇异的C使得:Y中任意随机变量ym都是独立分量s1,s2,…,sM的线性组合。由中心极值定理可知,此时的ym比任意的sn都更高斯,若以峭度度量,有:即:在此情况下,分量y1,y2,…,yM与未知源,即独立元s1,s2,…,sM的高斯性相同,归一化的峭度相同。并且由中心极值定理可知,此时,y1,y2,…,yM的高斯性弱于,亦即,峭度大于C的任何其它取值。若C退化为一个对角线矩阵:Y=BX=CA-1X=CS于是,以高斯性为指标,改变矩阵B使y1,y2,…,yM的峭度达到最大,则B=CA-1。此时得到的y1,y2,…,yM与独立元s1,s2,…,sM只相差常数倍,归一化后,即可得到了归一化的独立元解。于是,独立元分析问题归结为一个优化问题:即:已知:等价于对M维空间坐标的线性变换。当数据X已0均值化处理,则该变换只是坐标轴旋转。在选择矩阵B实现优化的过程中,需要不断估计随机变量y1,y2,…,yM峭度,而计算峭度时需要首先对变量进行去均值和方差归一化。坐标变换中,矩阵B的行矢量实际就是新坐标空间的坐标轴方向。为此,在优化过程中,作为坐标轴的矢量应该是单位矢量。数据归一化:给定矩阵:单位化:单位化的变换矩阵:2、算法实现求解该问题仍采用梯度法:基于非高斯性的ICA实际上就是优化问题:(6-104)其中,Bm是待求变换矩阵的第m行;X是经白化处理过的原始数据。Bm从初始值开始,使Bm沿着梯度增加方向递进,逐步逼近其最大值:即:(6-105)在迭代过程中,每次得到新的B后,对其行矢量Bm的模进行归一化,优化沿着单位圆进行。其中Bm是B矩阵的第m行,X是归一化的观测数据矩阵,a是步长。关于Bm的梯度:注意到X是原始数据白化的结果,有:以及于是:上式第二项不能改变的方向,因此对调整过程没有作用,于是可取:可用下式估计:(6-108)(6-109)利用以上迭代公式,可以逐个求出变换矩阵B中的每一行。如果己求出K个独立分量,则第K+1个独立分量由下式计算:(6-110)将两组混合的声音分离开。文件名:ShowICAwav.m声音文件:so2.wav和so3.wav(6-107)其中,Xn是数据矢量。FastICA算法:
本文标题:matlab教学.
链接地址:https://www.777doc.com/doc-2887502 .html