您好,欢迎访问三七文档
主分量分析与核主分量分析第一节主分量分析第二节核主分量分析第一节主分量分析概述主分量分析的基本原理主分量分析的计算步骤主分量分析主要的作用主分量分析方法应用实例许多系统是多要素的复杂系统,多变量问题是经常会遇到的。变量太多,无疑会增加分析问题的难度与复杂性,而且在许多实际问题中,多个变量之间是具有一定的相关关系的。因此,人们会很自然地想到,能否在相关分析的基础上,用较少的新变量代替原来较多的旧变量,而且使这些较少的新变量尽可能多地保留原来变量所反映的信息?一、概述事实上,这种想法是可以实现的,主分量分析方法就是综合处理这种问题的一种强有力的工具。主分量分析是把原来多个变量划为少数几个综合指标的一种统计分析方法。从数学角度来看,这是一种降维处理技术。在实际问题研究中,为了全面、系统地分析问题,我们必须考虑众多影响因素。这些涉及的因素一般称为指标,在多元统计分析中也称为变量。因为每个变量都在不同程度上反映了所研究问题的某些信息,并且指标之间彼此有一定的相关性,因而所得的统计数据反映的信息在一定程度上有重叠。在用统计方法研究多变量问题时,变量太多会增加计算量和增加分析问题的复杂性,人们希望在进行定量分析的过程中,涉及的变量较少,得到的信息量较多。主成分分析正是适应这一要求产生的,是解决这类题的理想工具。主成分概念首先由KarlParson在1901年首先提出,当时只是对非随机变量来讨论的。1933年Hotelling将这个概念推广到随机变量,作了进一步发展。把从混合信号中求出主分量(能量最大的成份)的方法称为主分量分析(PCA),而次分量(MinorComponents,MCs)与主分量(PrincipalComponents,PCs)相对,它是混合信号中能量最小的成分,被认为是不重要的或是噪声有关的信号,把确定次分量的方法称为次分量分析(MCA)。主分量分析又称主成分分析,也有称经验正交函数分解或特征向量分析。分析对象:以网格点为空间点(多个变量)随时间变化的样本。主分量分析与回归分析、差别分析不同,它是一种分析方法而不是一种预报方法。我们希望可以通过某种线性组合的方法使某个变量或者某些变量的解释方差变得比较大,这些具有较大解释方差的变量就称为主分量。主成分分析是一种经典的统计方法,它对多元统计观测数据的协方差结构进行分析,以期求出能简约地表达这些数据依赖关系的主成分,也是一种特征提取的方法。一般来说,主成分分析的实施效果与评价指标间的相关程度高低成正比。评价指标间相关程度越高,主成分分析的效果就越好。PCA可以用于减少特征空间维数、确定变量的线性组合、选择最有用的变量、变量辨识、识别目标或是异常值分组等。主分量子空间提供了从高维数据到低维数据在均方误差意义下的数据压缩,它能最大程度地减少方差。在统计学中,主成分分析(principalcomponentsanalysis,PCA)是一种简化数据集的技术。它是一个线性变换。这个变换把数据变换到一个新的坐标系统中,使得任何数据投影的第一大方差在第一个坐标(称为第一主成分)上,第二大方差在第二个坐标(第二主成分)上,依次类推。主成分分析经常用减少数据集的维数,同时保持数据集的对方差贡献最大的特征。这是通过保留低阶主成分,忽略高阶主成分做到的。这样低阶成分往往能够保留住数据的最重要方面。但是,这也不是一定的,要视具体应用而定。PCA主要用于数据降维,对于一组样本的特征组成的多维向量,多维向量里的某些元素本身没有区分性,比如某个元素在所有的样本中都为1,或者与1差距不大,那么这个元素本身就没有区分性,用它做特征来区分,贡献会非常小。所以我们的目的是找那些变化大的元素,即方差大的那些维,而去除掉那些变化不大的维,从而使特征留下的都是最能代表此元素的“精品”,而且计算量也变小了。对于一个k维的特征来说,相当于它的每一维特征与其他维都是正交的(相当于在多维坐标系中,坐标轴都是垂直的),那么我们可以变化这些维的坐标系,从而使这个特征在某些维上方差大,而在某些维上方差很小。例如,一个45度倾斜的椭圆,在第一坐标系,如果按照x,y坐标来投影,这些点的x和y的属性很难用于区分他们,因为他们在x,y轴上坐标变化的方差都差不多,我们无法根据这个点的某个x属性来判断这个点是哪个,而如果将坐标轴旋转,以椭圆长轴为x轴,则椭圆在长轴上的分布比较长,方差大,而在短轴上的分布短,方差小,所以可以考虑只保留这些点的长轴属性,来区分椭圆上的点,这样,区分性比x,y轴的方法要好!所以我们的做法就是求得一个k维特征的投影矩阵,这个投影矩阵可以将特征从高维降到低维。投影矩阵也可以叫做变换矩阵。新的低维特征必须每个维都正交,特征向量都是正交的。通过求样本矩阵的协方差矩阵,然后求出协方差矩阵的特征向量,这些特征向量就可以构成这个投影矩阵了。特征向量的选择取决于协方差矩阵的特征值的大小。举一个例子:对于一个训练集,100个样本,特征是10维,那么它可以建立一个100*10的矩阵,作为样本。求这个样本的协方差矩阵,得到一个10*10的协方差矩阵,然后求出这个协方差矩阵的特征值和特征向量,应该有10个特征值和特征向量,我们根据特征值的大小,取前四个特征值所对应的特征向量,构成一个10*4的矩阵,这个矩阵就是我们要求的特征矩阵,100*10的样本矩阵乘以这个10*4的特征矩阵,就得到了一个100*4的新的降维之后的样本矩阵,每个样本的维数下降了。二、主分量分析的基本原理假定有n个样本,每个样本共有p个变量,构成一个n×p阶的数据矩阵npnnppxxxxxxxxxX212222111211(1.2.1)当p较大时,在p维空间中考察问题比较麻烦。为了克服这一困难,就需要进行降维处理,即用较少的几个综合指标代替原来较多的变量指标,而且使这些较少的综合指标既能尽量多地反映原来较多变量指标所反映的信息,同时它们之间又是彼此独立的。定义:记x1,x2,…,xP为原变量指标,z1,z2,…,zm(m≤p)为新变量指标pmpmmmppppxlxlxlzxlxlxlzxlxlxlz22112222121212121111............(1.2.2)系数lij的确定原则:①zi与zj(i≠j;i,j=1,2,…,m)相互无关;②z1是x1,x2,…,xP的一切线性组合中方差最大者,z2是与z1不相关的x1,x2,…,xP的所有线性组合中方差最大者;…;zm是与z1,z2,……,zm-1都不相关的x1,x2,…xP,的所有线性组合中方差最大者。则新变量指标z1,z2,…,zm分别称为原变量指标x1,x2,…,xP的第1,第2,…,第m主成分。从以上的分析可以看出,主成分分析的实质就是确定原来变量xj(j=1,2,…,p)在诸主成分zi(i=1,2,…,m)上的荷载lij(i=1,2,…,m;j=1,2,…,p)。从数学上可以证明,它们分别是相关矩阵m个较大的特征值所对应的特征向量。三、主分量分析的计算步骤(一)计算相关系数矩阵rij(i,j=1,2,…,p)为原变量xi与xj的相关系数,rij=rji,其计算公式为pppppprrrrrrrrrR212222111211(1.3.1)nknkjkjikinkjkjikiijxxxxxxxxr11221)()())(((1.3.2)(二)计算特征值与特征向量①解特征方程,常用雅可比法(Jacobi)求出特征值,并使其按大小顺序排列;0RI021p②分别求出对应于特征值的特征向量,要求=1,即,其中表示向量的第j个分量。i),,2,1(pieiie112pjijeijeie③计算主成分贡献率及累计贡献率贡献率),,2,1(1pipkki累计贡献率),,2,1(11pipkkikk一般取累计贡献率达85%~95%的特征值所对应的第1、第2、…、第m(m≤p)个主成分。m,,,21④计算主成分载荷⑤主成分计算概括以下几点:),,2,1,(),(pjiexzplijijiij(1.3.3)(1.5.4)三、主分量分析主要作用1.主成分分析能降低所研究的数据空间的维数。即用研究m维的Y空间代替p维的X空间(m<p),而低维的Y空间代替高维的x空间所损失的信息很少。即:使只有一个主成分Y1(即m=1)时,这个Y1仍是使用全部X变量(p个)得到的。例如要计算Y1的均值也得使用全部x的均值。在所选的前m个主成分中,如果某个Xi的系数全部近似于零的话,就可以把这个Xi删除,这也是一种删除多余变量的方法。2.有时可通过因子负荷a'i'j的结论,弄清X变量间的某些关系。3、多维数据的一种图形表示方法。我们知道当维数大于3时便不能画出几何图形,多元统计研究的问题大都多于3个变量。要把研究的问题用图形表示出来是不可能的。然而,经过主成分分析后,我们可以选取前两个主成分或其中某两个主成分,根据主成分的得分,画出n个样品在二维平面上的分布况,由图形可直观地看出各样品在主分量中的地位,进而还可以对样本进行分类处理,可以由图形发现远离大多数样本点的离群点。4.由主成分分析法构造回归模型。即把各主成分作为新自变量代替原来自变量x做回归分析。5.用主成分分析筛选回归变量。回归变量的选择有着重的实际意义,为了使模型本身易于做结构分析、控制和预报,好从原始变量所构成的子集合中选择最佳变量,构成最佳变量集合。用主成分分析筛选变量,可以用较少的计算量来选择量,获得选择最佳变量子集合的效果。四、主分量分析方法应用实例下面,我们根据表3.5.1给出的数据,对某农业生态经济系统做主成分分析。样本序号人口密度x1/(人.km-2)人均耕地面积x2/hm2森林覆盖率x3/%农民人均纯收入x4/(元.人-1)人均粮食产量x5/(kg.人-1)经济作物占农作物播面比例x6/%耕地占土地面积比率x7/%果园与林地面积之比x8/%1363.9120.35216.101192.11295.3426.72418.4922.2312141.5031.68424.3011752.35452.2632.31414.4641.4553100.6951.06765.6011181.54270.1218.2660.1627.4744143.7391.33633.2051436.12354.2617.48611.8051.8925131.4121.62316.6071405.09586.5940.68314.4010.303表3.5.1某农业生态经济系统各区域单元的有关数据668.3372.03276.2041540.29216.398.1284.0650.0114.861795.4160.80171.106926.35291.528.1354.0630.0124.862862.9011.65273.3071501.24225.2518.3522.6450.0343.201986.6240.84168.904897.36196.3716.8615.1760.0556.1671091.3940.81266.502911.24226.5118.2795.6430.0764.4771176.9120.85850.302103.52217.0919.7934.8810.0016.1651251.2741.04164.609968.33181.384.0054.0660.0155.4021368.8310.83662.804957.14194.049.114.4840.0025.791477.3010.62360.102824.37188.0919.4095.7215.0558.4131576.9481.02268.0011255.42211.5511.1023.1330.013.4251699.2650.65460
本文标题:主分量分析
链接地址:https://www.777doc.com/doc-3489871 .html