您好,欢迎访问三七文档
当前位置:首页 > 商业/管理/HR > 资本运营 > 主成分分析的概念及基本思想主成分分析PrincipleComponent
1、主成分分析的概念及基本思想主成分分析(PrincipleComponentAnalysis,PCA)是最为常用的特征提取方法,被广泛应用到各领域,如图像处理、综合评价、语音识别、故障诊断等。它通过对原始数据的加工处理,简化问题处理的难度并提高数据信息的信噪比,以改善抗干扰能力。主成分概念首先由Karlparson在1901年引进,不过当时只是对非随机变量进行讨论,1933年Hotelling将这个概念推广到随机向量。在实际问题中,研究多指标(变量)问题是经常遇到的,然而在多数情况下,不同指标之间是有一定相关性。由于指标较多并且指标之间有一定的相关性,势必增加了分析问题的复杂性。主成分分析就是设法将原来众多具有一定相关性的指标(比如p个指标),重新组合成一组新的相互无关的综合指标来代替原来指标。通常数学上的处理就是将原来p个指标作线性组合,作为新的综合指标,但是这种线性组合,如果不加限制,则可以有很多,我们应该如何去选取呢?如果将选取的第一个线性组合即第一个综合指标记为F1,自然希望F1尽可能多的反映原来指标的信息,这里的“信息”用什么来表达?最经典的方法就是用F1的方差来表达,即Var(F1)越大,表示F1包含的信息越多。因此在所有的线性组合中所选取的F1应该是方差最大的,故称F1为第一主成分。如果第一主成分不足以代表原来P个指标的信息,再考虑选取F2即选第二个线性组合,为了有效地反映原来信息,F1已有的信息就不需要再出现在F2中,用数学语言表达就是要求Cov(F1,F2)=0,称F2为第二主成分,依此类推可以构造出第三,四,…,第p个主成分。不难想象这些主成分之间不仅不相关,而且它们的方差依次递减。因此在实际工作中,就挑选前几个最大主成分,虽然这样做会损失一部分信息,但是由于它使我们抓住了主要矛盾,并从原始数据中进一步提取了某些新的信息。因而在某些实际问题的研究中得益比损失大,这种既减少了变量的数目又抓住了主要矛盾的做法有利于问题的分析和处理。2、主成分分析的数学模型及几何意义2.1、数学模型设有n个样品,每个样品观测p项指标(变量):X1,X2,….Xp,得到原始数据资料阵:11121212221212(,,,)pppnnnpxxxxxxXXXXxxx其中12==1,2,,iiinixxXipx用数据矩阵X的p个向量(即p个指标向量)X1,X2,…Xp作线性组合(即综合指标向量)为:11112121212122221122ppppppppppFaXaXaXFaXaXaXFaXaXaX简写成1221,2,,iiiipipFaXaXaXip其中,Xi是n维向量,所以Fi也是n维向量。上述方程组要求:2221211,2,,iipiaaaip且系数aij由下列原则决定:(1)Fi与Fj(i≠j,i,j=1,…p)不相关;(2)F1是X1,X2,…,Xp的一切线性组合(系数满足上述方程组)中方差最大的,F2与F1不相关的X1,X2,…,Xp一切线性组合中方差最大的,…,Fp是与F1,F2,…,Fp-1都不相关的X1,X2,…,Xp的一切线性组合中方差最大的。如何求满足上述要求的方程组的系数aij呢?下一节将会看到每个方程式中的系数向量(a1i,a2i,…,api),i=1,2,…,p不是别的而恰好是X的协差阵∑的特征值所对应的特征向量,也就是说,数学上可以证明使Var(F1)达到最大,这个最大值是在协方差阵∑的第一个特征值所对应特征向量处达到。依此类推使Var(Fp)达到最大值是在协方差阵∑的第p个特征值所对应特征向量处达到。2.2、主成分的几何意义从代数学观点看主成分就是p个变量X1,X2,…,Xp的一些特殊的线性组合,而在几何上这些线性组合正是把X1,X2,…,Xp构成的坐标系旋转产生的新坐标系,新坐标轴使之通过样品变差最大的方向(或说具有最大的样品方差)。下面以最简单的二元正态变量来说明主成分的几何意义。设有n个样品,每个样品有p个变量记为X1,X2,…,Xp,它们的综合变量记为F1,F2,…,Fp。当p=2时,原变量是X1,X2,它们有下图的相关关系:主成分的意义对于二元正态分布变量,n个分散的点大致形成为一个椭圆,若在椭圆长轴方向取坐标轴F1,在短轴方向聚F2,这相当于在平面上作一个坐标变换,即按逆时针方向旋转θ角度,根据旋转轴变换公式新老坐标之间有关系:112212cossinsincosFXXFXX矩阵表示为:1122cossinsincosFXUXFX显然UT=U-1且是正交矩阵,即UTU=I。从上图还容易看出二维平面上的n个点的波动(可用方差表示)大部分可以归结为在F1轴上的波动,而在F2轴上的波动是较小的。如果上图的椭圆是相当扁平的,那么我们可以只考虑F1方向上的波动,忽略F2方向的波动。这样一来,二维可以降为一维了,只取第一个综合变量F1即可。而F1是椭圆的长轴。一般情况,p个变量组成p维空间,n个样品就是p维空间的n个点,对p元正态分布变量来说,找主成分的问题就是找P维空间中椭球体的主轴问题。3、主成分分析的推导在下面推导过程中,要用到线性代数中的两个定理:定理一若A是p*p阶实对称阵,则一定可以找到正交阵U使121p000000UAU,其中λ1,λ2,…,λp是A的特征根。定理二若上述矩阵A的特征根所对应的单位特征向量为u1,u2,…,up令11121p21222p121p2ppuuuu(,,,)uuppuuUuuuu则实对称A属于不同特征根所对应的特征向量是正交的,即0TTijuuUUUUI设1122TppFaXaXaXaX,其中a=(a1,a2,…,ap)T,X=(X1,X2,…,Xp)T,求主成分就是寻找X的线性函数aTX使相应得方差尽可能地大,即使()()TTVarFVaraXaa达到最大值,且aTa=1。设协方差矩阵∑的特征根为1,2,…,p,不妨假设12…p0,相应的单位特征向量为u1,u2,…,up。令11121p21222p1221222puuuu(,,,)uupuuUuuuu由前面线性代数定理可知:UTU=UUT=I,且121p000000pTiiiiUUuu因此2111()()()pppTTTTTTTiiiiiiiiiiiaaauuaauauau所以2111111()()()pTTTTTTTTiiaaauaUaUaUUaaa而且,当a=u1时有2111111111111()()ippTTTTTTiiiiiiiuuuuuuuuuuuu因此,a=u1使Var(aTX)=aT∑a达到最大值,且1111()TTVaruXuu同理()TiiVaruX而且11cov(,)()()()0,ppTTTTTTTijijiaaajaiaajaauuuuuuuuuuuuij上述推导表明:X1,X2,…,Xp的主成分就是以E的特征向量为系数的线性组合,它们互不相关,其方差为∑的特征根。由于∑的特征根12…p0,所以有VarF1VarF2…VarFp0。了解这一点也就可以明白为什么主成分的名次是按特征根取值大小的顺序排列的。在解决实际问题时,一般不是取p个主成分,而是根据累计贡献率的大小取前k个。称第一主成分的贡献率为1/piii,由于有11()VarF,所以111/()/()ppiiiiiVarFVarF。因此第一主成分的贡献率就是第一主成分的方差在全部方差1pii中的比值。这个值越大,表明第一主成分综合X1,X2,…,Xp信息的力越强。前两个主成分的累计贡献率定义为121()/pii,前k个主成分的累计贡献率定义为11/pkiiii。如果前k个主成分的贡献率达到85%,表明取前k个主成分包含了全部测量指标所具有的信息,这样既减少了变量的个数又便于对实际问题进行分析和研究。4、主成分分析的计算步骤设x=(x1,x2,⋯,xn)T为n维随机矢量,则PCA具体计算步骤如下:(1)将原始观察数据组成样本矩阵X,每一列为一个观察样本x,每一行代表一维数据。(2)计算样本的协方差矩阵:(3)计算协方差矩阵Cx的特征值λi及相应特征向量ui,其中i=1,2,⋯,n。(4)将特征值按由大到小顺序排列,并按照下式计算前m个主元的累积贡献率:11()/mniiiim累积贡献率用于衡量新生成分量对原始数据的信息保存程度,通常要求其大于85%即可。(5)取前m个较大特征值对应的特征向量构成变换矩阵TT:TT=(u1,u2,⋯,um)mn(6)通过Y=TX计算前m个主成分,达到降低维数的目的。
本文标题:主成分分析的概念及基本思想主成分分析PrincipleComponent
链接地址:https://www.777doc.com/doc-4746707 .html