您好,欢迎访问三七文档
主成分分析一、什么是主成分分析及基本思想1、什么是主成分分析主成分概念首先由Karlparson在1901年引进,不过当时只对非随机变量来讨论的。1933年Hotelling将这个概念推广到随机向量:在实际问题中,研究多指标(变量)问题是经常遇到的,然而在多数情况下,不同指标之间是有一定相关性。由于指标较多再加上指标之间有一定的相关性,势必增加了分析问题的复杂性。主成分分析就是设法将原来指标重新组合成一组新的互相无关的几个综合指标来代替原来指标,同时根据实际需要从中可取几个较少的综合指标尽可能多地反映原来指标的信息。这种将多个指标化为少数互相无关的综合指标的统计方法叫做主成分分析或称主分量分析。也是数学上处理降维的一种方法,例如,某人要做一件上衣要测量很多尺寸,如身长、袖长、胸围、腰围、肩宽、肩厚等十几项指标,但某服装厂要生产一批新型服装绝不可能把尺寸的型号分得过多?而是从多种指标中综合成几个少数的综合指标,做为分类的型号,利用主成分分析将十几项指标综合成3项指标,一项是反映长度的指标,一项是反映胖瘦的指标,一项是反映特体的指标。在商业经济中用主成分分析可将复杂的一些数据综合成几个商业指数形式,如物价指数、生活费用指数,商业活动指数等等。主成分分析除了可以单独用来处理上面所讨论的这一类问题外,还可以与其它方法结合起来使用,例如与回归分析结合起来就是主成分回归,它可以克服回归问题中由于自变量之间的高度相关而产生的分析困难。2基本思想主成分分析就是设法将原来众多具有一定相关性的指标(比如p个指标),重新组合成一组新的相互无关的综合指标来代替原来指标。通常数学上的处理就是将原来p个指标作线性组合,作为新的综合指标,但是这种线性组合,如果不加限制,则可以有很多,我们应该如何去选取呢?如果将选取的第一个线性组合即第一个综合指标记F1,自然希望F1尽可能多的反映原来指标的信息,这里的“信息”用什么来表达?最经典的方法就是用F1的方差来表达,即Var(F1)越大,表示F1包含的信息越多。因此在所有的线性组合中所选取的F1应该是方差最大的,故称F1为第一主成分。如果第一主成分不足以代表原来p个指标的信息,再考虑选取F2即选第二个线性组合,为了有效地反映原来信息,F1已有的信息就不需要再出现在F2中,用数学语言表达就是要求Cov(F1,F2)=0,称F2为第二主成分,依此类推可以造出第三,四,…,第p个主成分。不难想像这些主成分之间不仅不相关,而且它们的方差依次递减。因此在实际工作中,就挑选前几个最大主成分,虽然这样做会损失一部分信息,但是由于它使我们抓住了上要矛盾,并从原始数据中进一步提取了某些新的信息,因而在某些实际问题的研究中得益比损失大,这种既减少了变量的数目又抓住了主要矛盾的做法有利于问题的分析和处理。2、主成分分析的数学模型及几何解释(1)、数学模型设有n个样品,每个样品观测p项指标(变量),X1,X2,…,Xp,得到原始数据资料阵:其中用数据矩阵X的p个向量(即p个指标向量)X1,…,Xp作线性组合(即综合指标向量)为:简写成(注意:Xi是”维向量,所以Fi也是n维向量)上述方程组要求:的一切线性组合中方差第P大的。如何求满足上述要求的方程组的系数aij呢?下一节将会看到每个方程式中的系数向量不是别的而恰好是X的协差阵所对应的特征向量;也就是说,数学上可以证明使Var(F1)达到最大,这个最大值是在的第一个特征值所对应特征向量处达到。依此类推使Var(Fp)达到最大值是在的的特征值第p个特征值所对应特征向量处达到。这里要说明两点:一个是数学模型中为什么作线性组合?基于两种原因:①数学上容易处理;②在实践中效果很好。另一个要说明的是每次主成分的选取使Var(Fi)最大,如果不加限制就可使Var(Fi)则就无意义了,而常用的限制是要求(2)、主成分的几何意义从代数学观点看主成分就是p个变量X1…,Xp的一些特殊的线性组合,而在几何上这些线性组合正是把X1,…,Xp构成的坐标系旋转产生的新坐标系,新坐标轴使之通过样品变差最大的方向(或说具有最大的样品方差)。下面以最简单的二元正态变量来说明主成分的几何意义。设有n个样本,每个样本有p个变量记为X1,…,Xp,它们的综合变量记为F1,F2,…,Fp。当p=2时,原变量是X1,X2,设它们有下图的相关关系:对于二元正态分布变量,n个点的散布大致为一个椭园,若在椭园长轴方向取坐标轴F1,在短轴方向取F2,这相当于在平面上作一个坐标变换,即按逆时针方向旋转角度,根据旋轴变换公式新老坐标之间有关系:我们看到F1,F2是原变量X1和X2的线性组合,用矩阵表示是显然且是正交矩阵,即从上图还容易看出二维平面上的n个点的波动(可用方差表示)大部分可以归结为在F1轴上的波动,而在F2轴上的波动是较小的。如果上图的椭园是相当扁平的,那么我们可以只考虑F1方向上的波动,忽略F2方向的波动。这样一来,二维可以降为一维了,只取第一个综合变量F1即可。而F1是椭园的长轴。设∑的特征根所以有:VarF1≥VarF2≥…≥VarFpo。在解决实际问题时,一般不是取p个主成分,而是根据累计贡献率的大小取前几个。定义称第一主成分的贡献率为主成分的贡献率就是主成分的方差在全部方差中的比值因此第一3主成分的贡献率个值越大,表明第一主成分综合X1…,Xp信息的能力越强。前两个主成分的累计贡献率定义为前两个主成分的累计贡献率定义为前k个主成分的贡献率达到85%,表明取前k个主成分基本包含了全部测量指标所具有的信息,这样既减少了变量的个数又便于对实际问题的分析和研究。如果值得指出的是:当协差阵∑未知时,可用其估计值S(样本协差阵)来代替,设原始资料阵为:则其中而相关系数阵:其中显然当原始变量Xl,…,Xp标准化后,则实际应用时,往往指标的量纲不同,所以在计算之前先消除量纲的影响,而将原始数据标准化,这样一来S和R相同。因此一般求R的特征根和特征向量,并且不妨取R=X’X。因为这时的R与不变,它并不影响求主成分。只差一个系数,显然与的特征根相差n倍,但它们的特征向量。4计算步骤及实例设有n个样品,每个样品观测p个指标,将原始数据写成矩1.将原始数据标准化。这里不妨设上边矩阵已标准化了。2.建立变量的相关系数阵:不妨设3.求R的特征根及相应的单位特征向量:4.写出主成分例对全国30个省市自治区经济发展基本情况的八项指标作主成分分析,原始数据如下:第一步将原始数据标准化。第二步建立指标之间的相关系数阵R如下第三步求R的特征值和特征向量。从上表看,前3个特征值累计贡献率已达89.564%,说明前3个主成分基本包含了全部指标具有的信息,我们取前3个特征值,并计算出相应的特征向量:因而前三个主成分为:第一主成分:第二主成分:第三主成分:在第一主成分的表达式中第一、二、三项指标的系数较大,这三个指标起主要作用,我们可以把第一王成分看成是由国内生产总值、固定资产投资和居民消费水平所该划的反映经济发展状况的综合指标;在第二主成分中,第四、五、六、七项指标的影响大,且第六、七项指标的影响尤其大,可将之看成是反映物价指数、职工工资和货物周转量的综合指标;在第三主成分中,第八项指数影响最大,远超过其它指标的影响,可单独看成是工业总产值的影响。主成分分析用于系统评估系统评估是指对系统营运状态做出评估,而评估一个系统的营运状态往往需要综合考察许多营运的指标.5附注例如对某一类企业经济效益作评占,影响企业经济效益就有许多指标,很难直接比较其优劣,听以解决评估问题的焦点就是希望科学、客观地将一个多指标问题综合成一个单指标的形式,也就是说只有在一维空间中才能使排序评估成为可能,因此产生了许许多多评估方法。鉴于系统评估在社会、经济等许多领域中有着广泛而重要的应用,下面其中方法。具体方法,利用主成分F1…,Fp做线性组合,并以每个主成分Fi的方差贡献率作为权数构造一个综合评价函数:也称y为评估指数,依据对每个系统计算出的y值大小进行排序比较或分类划级。主成份分析的MATLANB实现这里给出江苏省生态城市主成份分析实例。城市环境生态化是城市发展的必然趁势,表现为社会、经济、环境与生态全方位的现代化水平,一个符合生态规律的生态城市应该是结构合理、功能高效和关系协调的城市生态系统。所谓结构合理是指适度的人口密度,合理的土地利用,良好的环境质量,充足的绿地系统,完善的基础设施,有效的自然保护;功能高效是指资源的优化配置、物力的经济投入、人力的充分发挥、物流的畅通有序、信息流的快捷;关系协调是指人和自然协调、社会关系协调、城乡协调、资源利用和更新协调。一个城市要实现生态城市的发展目标,关键是在市场经济的体制下逐步改善城市的生态环境质量,防止生态环境质量恶化,因此,对城市的生态环境水平调查评价很有必要。我们对江苏省十个城市的生态环境状况进行了调查,得到生态环境指标的指数值,见表1。现对生态环境水平分析和评价。我们利用Matlab中的princomp命令实现。具体程序如下X=[0.78830.73910.81110.65870.65430.82590.84860.68340.84950.78460.76330.72870.76290.85520.75640.74550.78000.94900.89180.89540.47450.51260.88100.89030.82880.78500.80320.88620.39870.39700.82460.76030.68880.89770.79260.78560.65090.89020.67990.98770.87910.87360.81830.94460.92020.92630.91850.95050.86200.88730.95380.92570.92850.94340.91540.88710.93570.87600.95790.97410.87850.85420.85370.90270.87290.84850.84730.90440.88660.90350.63050.61870.63130.74150.63980.61420.57340.89800.61860.73820.89280.78310.56080.84190.84640.76160.82340.63840.96040.8514];这样,前三个主成分为第一主成分贡献率为43.12%,第二主成分贡献率为29.34%,第三主成分贡献率为11.97%,前三个主成分累计贡献率达84.24%。如果按80%以上的信息量选取新因子,则可以选取前三个新因子。第一新因子z1包含的信息量最大为43.12%,它的主要代表变量为X8(城市文明)、X7(生产效率)、X4(城市绿化),其权重系数分别为0.4815、0.4236、0.4048,反映了这三个变量与生态环境水平密切相关,第二新因子Z2包含的信息量次之为29.34%,它的主要代表变量为X3(地理结构)、X6(资源配置)、X9(可持续性),其权重系数分别为0.5299、0.5273、0.4589,第三新因子Z3包含的信息量为11.97%,代表总量为X9(可持续性)、X5(物质还原),权重系数分别为0.5933、0.5664。这些代表变量反映了各自对该新因子作用的大小,它们是生态环境系统中最重要的影响因素。根据前三个主成分得分,用其贡献率加权,即得十个城市各自的总得分根据总得分排序,结果见表1。
本文标题:主成分(修改)
链接地址:https://www.777doc.com/doc-3378897 .html