您好,欢迎访问三七文档
当前位置:首页 > 金融/证券 > 股票报告 > (ICA独立成份分析)独立成分分析
独立成分分析IndependentComponentAnalysis(ICA)齐娟2007-5-29主要内容•ICA定义•ICA模型•ICA原理•ICA算法•ICA应用•PCA&ICAICA定义•定义一:利用很少的先验知识将混合信息分离成独立分量的一种重要方法。•定义二:找到事物的一种合理表示,使得各分量最大化地独立。•20世纪八十年代才被提出。cocktail-partyproblem•例子:cocktail-partyproblemSourcesObservationss1s2x1x2MixingmatrixAx=Asnsources,m=nobservationscocktail-partyproblemTwoIndependentSourcesMixtureattwoMics22212122121111)()(sasatxsasatxICA模型(经典)•xj=aj1s1+aj2s2+..+ajnsn,对于每一个jx=As•条件:s和A均是未知的,只有x已知•目标:通过x估计出A和s每一个si成分统计独立•限制:每一个成分都不是Gaussian分布(实际上未知)混合矩阵A为方阵且可逆(这个限制可以放松)•结论:估计出A之后,我们就可以得到s(s=A-1x)AmbiguitiesofICAs和A均是未知的,s乘一个标量k,总可以用A乘以1/k所抵消,即不能唯一确定s和A。作如下约束:S中各个分量的次序不确定2{}1iEsIllustrationofICA•统计意义下说明xAsoxAsS各分量相互独立x各分量不相互独立判断方法:能否从一个分量估计出另一分量的值。边的方向即A0列向量。IllustrationofICA•通过x的统计性质,作一些假设的条件下,可以估计出A和s统计概念•独立:两个随机变量y1和y2是相互独立的,如果y1的值不能为y2提供任何信息,反之亦成立。用概率密度函数描述:性质:给定两函数h1和h2有:•不相关:两随机变量是不相关的,如果•独立的肯定不相关,不相关的未必独立,即独立是比不相关更强的约束。121122(,)()()pyypypy11221122{()()}{()}{()}EhyhyEhyEhy1212{}{}{}EyyEyEy不可以是Gaussian分布•在假设条件中,各分量不允许是Gaussian分布•X1和x2都是标准Gaussian分布,联合概率密度函数:没有边缘信息,即不包含A的列向量的信息。2212121(,)exp22xxpxxICA估计的原理:non-Gaussianity•根据中心极限定理,独立随机变量的和在一定条件下趋近于高斯分布。即独立随机变量的和比原独立随机变量更接近高斯分布。•可以认为越具有高斯性,其独立性越差反之,non-Gaussianity越强,独立性越强ICA估计的原理:non-Gaussianity•ICA模型:x=Ass=A-1x•令y=wTx.z=ATw,则y=wTx=wTAs=zTs•这样的话y是s的线性组合,y应该比s更具有高斯性,除非wT接近A-1。此时,y=wTx=A-1x=s。•也就是说y=s时,y具有最大非高斯性。•问题转化为求解w,它最大化wTx的non-Gaussianity性。•ICA数值优化问题。non-Gaussianity的度量•为了在ICA估计中使用non-Gaussianity,我们必须有一个对它的定性度量。•常用的有三种:KurtosisNegentropyApproximationsofnegentropyKurtosis•定义:y为随机变量,则•对于高斯分布,Kurtosis为零,大部分非高斯分布Kurtosis不为零。•性质:•优点:计算和理论简单•缺点:对outliers敏感,不具有鲁棒性Negentropy基于信息论中熵的概念定理:在所有随机变量,高斯分布的变量有最大熵。定义NegentropyJ为:yGauss是和y有相同协方差矩阵的高斯随机变量。y为高斯分布时,Negentropy为零,其它分布时不为零。计算起来太复杂,需要引入其近似值。Negentropy的近似经典近似:和Kurtosis有同样的缺点:不鲁棒。另一种近似:V是均值为零,方差为1的高斯随机变量,G是非二次函数常取为:计算简单快速,而且具有鲁棒性。后面介绍的算法即采用此种近似。22311()1248JyEykurty2()()()JycEGyEGv1111()logcosGuaua22()exp2uGu预处理-Centering•为了使算法更简单,一般会在采用具体算法前进行预处理。•Centering:使x变为均值为零的随机变量,减去m=E{x}即可。•纯粹为了简化计算,估计完A后,可以将s的均值补偿回去。s的均值向量为A-1s。预处理-whitening•对x进行线性变化,使变换后的x’是white的,即各分量不相关且,I为单位矩阵。•方法:特征值分解(EVD)•变换后A为正交矩阵A‘:根据正交矩阵性质,正交矩阵自由度为n(n-1)/2,将需要估计的矩阵系数减少了一半。''TExxI''TTExxEDE1/2'TxEDEx''''''1TTTTExxAEssAAA小结•前面给出了测量函数,也已证明ICA问题实际上就是求解函数的最值问题。•现在需要的是求解最值的优化算法。有很多,梯度下降法,EM算法等。•应用最广泛的为FastICA算法,它基于固定点迭代的方法补充:固定点迭代法•用于求解方程(线性、非线性、差分)•函数的固定点:函数g(x)的固定点是数p,如果p=g(p)几何上的表述是Y=g(x)和Y=x的交点•固定点迭代:选择初始值p0,然后将函数迭代作用于自身的输出,直到输入和输出差别很小为止。p1=g(p0)p2=g(p1)……….pn=g(pn)FastICA算法(一个分量)•FastICA算法目前应用最为广泛。•采用度量函数为:•基于固定点迭代的方法找到WTx度量函数的最大值。1.随机选择初始向量W2.令:3.令:4.如果不收敛,转到22()()()JycEGyEGv()'()TTWExgWxEgWxw/||||FastICA算法(多个分量)•使用上面的算法可以求出一个独立分量,重复使用上面的算法即可求出多个独立分量,为避免所有调用趋近一个值,需充分利用独立性的特点,在此使用的是轻级独立性--不相关。•类似于Gram-Schmidt正交化1.得到前q个向量w1.w2….wp后,再次调用上算法得到wp+12.令:3.令:1111pTpppjjj1111/Tpppp扩展•ICA模型前面只给出了经典ICA模型,实际现在发展起来很多模型,如噪声模型,非线性模型等等。•ICA方法前面解决ICA的方法是,最大化non-Gaussianity度量函数,转化为数值优化问题。除了non-Gaussianity度量函数外,还有很多其它函数如互信息量,也有各种不同的优化算法,梯度、EM等。•其实所有的ICA算法可以表示为:ICA算法=度量函数+优化算法应用•声音源分离(”cocktail-partyproblem”)•生物信号处理•经济及其它时间序列•无线通信,如CDMA•特征提取应用•生物信号处理。如EEG(脑电图)将一些电极放在头皮上记录脑的活动。一些人为动作会造成噪声(如眨眼、张嘴等)。ICA可以用于去除这些噪声。•经济及其它时间序列。对于一些并列的序列,如外汇兑换和股票交易,可能有相同的潜在因素,一些连锁店的销售情况可能有共同的影响因素,如假期。无线通信•CDMA(CodeDivisionMultipleAccess)码分多路复用•3G标准之一。•用户共享相同的带宽,同时传送信号。•CDMA通信系统给每个用户分配一个唯一的光正交码的码字作为该用户的地址码,但由于传输的特点会丧失正交性。如何恢复原信号。信道用户用户特征提取•x=As,如果我们把A的每一列Ai当作一个特征,s是系数向量,则可以用于特征提取。•很多人脸识别的方法是使用统计方法得到一些基图像,人脸被认为是这些基图像的线性组合,多用PCA得到这些基图像。•有人将其用于人脸识别,代替PCA做特征提取,发现识别效果要好。•研究标明ICA提取的特征和人的大脑皮层感知的特征很相近。•在数据压缩和模式识别中应用很广。iixAsPCA&ICA•两者都是线性变换都可以看作一些分量的组合。•不同的是PCA而言,各分量不相关ICA而言,各分量独立•PCA的目的是找到这样一组分量表示,使得重构误差最小,即最能代表原事物的特征。•ICA的目的是找到这样一组分量表示,使得个分量最大化独立,能够发现一些隐藏因素。•ICA是PCA的增强1122.....nnxAsAsAsAs资源•源代码FastICA的源代码(matlab版)可以免费下载C++版本在代码库IT++中实现•链接:://itpp.sourceforge.net/latest/~tony/ica.html•论文:Independentcomponentanalysis:algorithmsandapplicationsSurveyonIndependentComponentAnalysis
本文标题:(ICA独立成份分析)独立成分分析
链接地址:https://www.777doc.com/doc-5424127 .html