您好,欢迎访问三七文档
1主成分分析专题§1引言我们在作数据分析处理时,涉及的样品往往包含有多个测量指标(比如p个指标),较多的指标会带来分析问题的复杂性。然而,这些指标彼此之间常常存在着一定程度的、有时甚至是相当高的相关性,这就使含在观测数据中的信息在一定程度上有所重叠。主成分分析就是一种通过降维技术把多个指标约化为少数几个综合指标的统计分析方法。这些综合指标能够反映原始指标的绝大部分信息,它们通常表示为原始p个指标的某种线性组合。为了使这些综合指标所含的信息互不重叠,应要求它们互不相关。例如,考虑p=2的情形,假设共有n个样品,每个样品都测量了两个指标),(21xx,它们大致分布在一个椭圆内。如图所示。显然,在坐标系21Oxx中,n个点的坐标1x和2x呈现某种线性相关性。我们将该坐标系按逆时针方向旋转某个角度变成新坐标系21Oyy,这里1y是椭圆的长轴方向,2y是短轴方向。旋转公式为112212cossinsincosyxxyxx易见,n个点在新坐标系下的坐标1y和2y几乎不相关。1y和2y称为原始变量1x和2x的综合变量,n个点在1y轴上的方差达到最大,即在此方向上所含的有关n个样品间差异的信息是最多的。因此,若欲将二维空间的点投影到某个一维方向,则选择1y轴方向能使信息的损失降低到最小。我们称1y轴为第一主成分,而与1y轴正交的2y轴,有着较小的方差,称为第二主成分。第一主成分的效果与椭圆的形状有很大关系,椭圆越是扁平,n个点在1y轴上的方差就相对越大,在2y轴上的方差就相对越小。考虑这样两种极端的情形:一种是椭圆的长轴与短轴的长度相等,即椭圆变成圆,第一主成分只含有二维空间点的约一半信息,若仅用这一个综合变量,则将损失约50%的信息,这显然是不可取的。造成它的原因是,原始变量1x和2x的相关程度几乎为零,也就是说,1x和2x所包含的信息几乎互不重叠,因此无法用一个一维的综合变量来代替它们。另一种是椭圆扁平到了极限,变成1y轴上的一条线段,第一主成分包含有二维空间点的100%2信息,仅用这一个综合变量代替原始的二维变量不会有任何的信息损失,此时的主成分分析效果是非常理想的。其原因是,原始变量1x和2x可以相互确定,它们所含的信息是完全相同的,因此使用一个综合变量也就完全足够了。§2总体的主成分一、主成分的定义及导出设),,,(21pxxxx为一个p维随机向量,并假定二阶矩存在,备注:设X和Y是随机变量,若)(kXE,,2,1k存在,称它为X的k阶原点矩,简称k阶矩。若kXEXE)]([,,2,1k存在,称它为X的k阶中心矩。若)(lkYXE,,2,1,lk存在,称它为X和Y的lk阶混合矩。若lkYEYXEXE)]([)]([,,2,1k存在,称它为X和Y的lk阶混合中心矩。显然,二维随机变量),(21XX有四个二阶中心矩(设它们都存在),分别记为})]({[21111XEXEc)]}()][({[221112XEXXEXEc)]}()][({[112221XEXXEXEc})]({[22222XEXEc将它们排成矩阵的形式:22211211cccc这个矩阵称为随机变量),(21XX的协方差矩阵。设n维随机变量),,,(21nXXX的二阶混合中心矩(,){[()][()]}ijijiijjccovXXEXEXXEX,nji,,2,1,都存在,则称矩阵3nnnnnnccccccccc212222111211为n维随机变量),,,(21nXXX的协方差矩阵。由于jiijcc(njiji,,2,1,,),因而上述矩阵是一个对称矩阵。一般,n维随机变量的分布是不知道的,或者是太复杂,以致在数学上不易处理,因此在实际应用中协方差矩阵就显得重要了。备注完毕。记)(xE,)(xV。考虑如下的线性变换xaxaxaxayxaxaxaxayxaxaxaxayppppppppppp'2211'222221212'112121111(7.2.1)我们希望1y是pxxx,,,21的一切线性函数中方差最大的。因为1'11'1'1)()(aaaxVaxaV,对任意的常数k,1'12'12'1)()(aakxaVkxkaV,所以如不对1a加以限制,就会使问题变得没有什么意义。于是常常限制piaaii,,2,1,1'(7.2.2)故我们希望在(7.2.2)的条件下寻求向量1a,使得1'11)(aayV达到最大,1y就称为第一主成分。设021p(因为非负定)为的特征值,pttt,,,21为相应的单位特征向量,且相互正交。则的谱分解为:piiiipttTT1'2100(7.2.3)其中),,,(21ptttT为正交矩阵。对p维单位向量a,有41111'11'11211211211')()()()())((aaaTTaattaattatatatatataattaaapiiipiiipiipiipiiipiiiipiiii备注:piiippppppppppppppttttttttttttttttttttttttttTT1'''2'121212221212111212222111211,,,备注完毕。即第一主成分方差的上确界为1。当取1ta时,有11'1111'11'1)()(tttttt(7.2.4)或112'122'1221'1112'11'1'111''11'10)()()()())((pppiiipiiiipiiiitttttttttttttttttt所以,xty'11就是所求的第一主成分,它的方差具有最大值1。如果第一主成分所含信息不够多,还不足以代表原始的p个变量,则需考虑使用2y,为了使2y所含的信息与1y不重叠,应要求0),cov(21yy(7.25)于是,我们在约束条件(7.2.2)式和(7.2.5)式下寻求向量2a,使2'22)(aayV达到最大,所求的2y称为第二主成分。类似地,我们可以再定义第三主成分、…、第p主成分。一般来说,x的第i主成分xayii'是指:在约束条件(7.2.2)和1,,2,1,0),cov(ikyyik(7.2.6)下寻求ia,使得iiiaayV')(达到最大。5现在我们来求p维单位向量a,使得xay2为第二主成分。由(7.2.6)式知1221'1111111cov(,)cov(,)cov(,)cov(,)()0yyyyaxtxaxxtatatat由于01,所以01ta,即a与1t正交。从而221222222212121'21222()()()()()()piiipiiipiipiipiiipiiipiiiVyaaatatatatatatattaattaaTTaaa故若取2ta,则有22'2222'22'2)()(tttttt(7.2.7)所以,xty'22就是所求的第二主成分,具有方差2。一般地,我们可求得第i主成分为xtyii',它具有方差i,pi,,2,1。二、主成分的性质61.主成分的均值和协方差矩阵记pyyyy21,)(yEu,p0021由于xTy(7.2.8)故主成分的均值为TxTEyEu)()((7.2.9)协方差矩阵为TTTxVTxTVyV)()()((7.2.10)2.主成分的总方差由于)()()()(trTTtrTTtrtr,备注:若A,B均为方阵,则)()(BAtrABtr。备注完毕。所以piiipii11(7.2.11)或piipiixVyV11)()()11.2.7(由此可以看出,主成分分析把p个原始变量pxxx,,,21的总方差)(tr分解成了p个不相关的变量pyyy,,,21的方差之和pii1。主成分分析的目的就是为了减少变量的个数,一般是不会使用所有p个主成分的,忽略一些带有较小方差的主成分将不会给总方差带来大的影响。我们称piik1为主成分ky的贡献率;第一主成分的贡献率最大,这表明xty'11综合原始变量7pxxx,,,21的能力最强,而pyyy,,,32的综合能力依次递减。若只取m(pm)个主成分,则称piimii11为主成分myyy,,,21的累计贡献率,累计贡献率表明myyy,,,21综合pxxx,,,21的能力。通常取m,使得累计贡献率达到一个较高的百分数(如85%)以上。3.变量ix与主成分jy之间的相关系数变量ix与主成分jy之间的相关系数的计算公式为jiijijijijiyxyVxVyxyx),cov()()(),cov(),((7.2.12)由(7.2.8)式知Tyx(7.2.13)若记)(ijtT,则pipiiiytytytx2211)13.2.7(所以jijjjijjityytyx),cov(),cov(代入(7.2.12)式得ijiijjiijijjiijijittyxyx),cov(),((7.2.14)即ijiijjityx),((7.2.14)所有这些相关系数列于表7.1中。在实际应用中,通常我们只对),,2,1(pixi与),,2,1(mjyj的相关系数感兴趣,因此往往只列出表7.1的前m列,即形成mp表。表7.1变量ix与主成分jy之间的相关系数主成分原始变量1y2y…py81x11111t12112t…ppt1112x21221t22222t…ppt222……………px11pppt22pppt…pppppt4.m个主成分对原始变量的贡献率前面提到的累计贡献率这个概念度量了主成分myyy,,,21从原始变量pxxx,,,21中提取信息的多少,那么,myyy,,,21包含有),,2,1(pixi的多少信息应该用什么指标来度量呢?这个指标就是ix与myyy,,,21的复相关系数的平方,称为m个主成分myyy,,,21对原始变量ix的贡献率,记为21mi。易知,mjijiijmjjimiimiiimiimmiimityxyxyxyxyxxVyxyxyVyVyxyx121211111121),(),(),()),(,),,(()(),cov(),cov()(00)()),cov(,),,(cov(即mjijiijmit1221(7.2.15)这些值列于表7.2中。表7.2m个主成分对原始变量的贡献率原始变量21mi1xmjjjt1211192xmjjjt12222……pxmjpjppjt12由)13.2.7(式知,pyyy,,,21对ix的贡献率121pi。另外,下式也可证明:1)(),(12121221iiiiiiiiipjijjpjijiijpjjipixVttyx(7.2.16)备注:事实上,因为pipiiiytytytx
本文标题:05主成分分析
链接地址:https://www.777doc.com/doc-5490782 .html