您好,欢迎访问三七文档
当前位置:首页 > 临时分类 > 15主成分分析原理介绍
§3.5主成分分析方法主成分分析的基本原理主成分分析的计算步骤主成分分析方法应用实例一项十分著名的工作是美国的统计学家斯通(Stone)在1947年关于国民经济的研究。他曾利用美国1929~1938年各年的数据,得到了17个反映国民收入与支出的变量要素,例如雇主补贴、消费资料和生产资料、纯公共支出、净增库存、股息、利息外贸平衡等等。在进行主成分分析后,竟以97.4%的精度,用3个新变量就取代了原17个变量。根据经济学知识,斯通给这三个新变量分别命名为总收入F1、总收入变化率F2和经济发展或衰退趋势F3。更有意思的是,这三个变量其实都是可以直接测量的。斯通将他得到的主成分与实际测量的总收入I、总收入变化率I以及时间t因素做相关分析,得到下表:F1F2F3I⊿ItF11F201F3001I0.995-0.0410.0571⊿I-0.0560.948-0.124-0.1021t-0.369-0.282-0.836-0.414-0.1121问题提出:为了全面系统的分析和研究问题,必须考虑许多指标,这些指标能从不同的侧面反映所研究的对象的特征,但指标过多,会增加分析的复杂性,原始变量能不能减少为有代表性的少数几个新变量,用它来代表原来的指标?1.主成分分析的基本原理主成分分析就是寻找用较少的新变量代替原来较多的旧变量,而且使新变量尽可能多地保留原来较多信息的方法。1.主成分分析的基本原理有n个地理样本,每个样本共有p个变量,构成一个n×p阶的地理数据矩阵当p较大时,在p维空间中考察问题比较麻烦。npnnppxxxxxxxxxX212222111211问题的提出为了克服这一困难,就需要进行降维处理,即用较少的几个综合指标来代替原来的指标,而且使这些综合指标能尽量多地反映原来指标所表示的信息,同时他们之间又是彼此独立的。1.主成分分析的基本原理在选取综合指标时,最简单的形式就是取原来变量的线性组合,适当调整组合系数,使新的变量之间相互独立且代表性最好。综合指标的选取为了方便,我们在二维空间中讨论主成分的几何意义。设有n个样品,每个样品有两个观测变量xl和x2,在由变量xl和x2所确定的二维平面中,n个样本点所散布的情况如椭圆状。主成分分析的几何解释•2x1x••••••••••••••••••••••••••••••••••••可以看出这n个样本点无论是沿着xl轴方向或x2轴方向都具有较大的离散性,其离散的程度可以分别用观测变量xl的方差和x2的方差定量地表示。显然,如果只考虑xl和x2中的任何一个,那么包含在原始数据中的信息将会有较大的损失。如果我们将xl轴和x2轴先平移,再同时按逆时针方向旋转角度,得到新坐标轴zl和z2。zl和z2是两个新变量。•2x1x••••••••••••••••••••••••••••••••••••Z2z1112212cossinsincoszxxzxx根据旋转变换的公式:U是正交矩阵,即有1122cossinsincoszxzxUxEUU,UU1zl,z2除了可以对包含在xl,x2中的信息起着浓缩作用之外,还具有不相关的性质,这就使得在研究复杂的问题时避免了信息重叠所带来的虚假性。二维平面上的各点的方差大部分都归结在zl轴上,而z2轴上的方差很小。zl和z2称为原始变量x1和x2的综合变量。z简化了系统结构,抓住了主要矛盾。*旋转变换的目的是为了使得n个样本点在z1轴方向上的离散程度最大,即z1的方差最大,变量z1代表了原始数据的绝大部分信息,在研究某些问题时,即使不考虑变量z2也损失不多的信息。z1称为第一主成分,z2称为第二主成分。推广到p维空间:记x1,x2,…,xP为原变量指标,z1,z2,…,zm(m≤p)为新变量指标,则:pmpmmmppppxlxlxlzxlxlxlzxlxlxlz22112222121212121111z1,z2,…,zm分别称为原变量指标x1,x2,…,xP的第一,第二,…,第m主成分。由此可见,主成分分析的主要任务就是确定原变量xj(j=1,2,…,p)在诸主成分zi(i=1,2,...,m)上的系数lij。推广到p维空间:系数lij的确定原则:①zi与zj(i≠j;i,j=1,2,…,m)相互无关;②z1是x1,x2,…,xP的一切线性组合中方差最大者,z2是与z1不相关的x1,x2,…,xP的所有线性组合中方差最大者;……;zm是与z1,z2,……,zm-1都不相关的x1,x2,…,xP的所有线性组合中方差最大者。2.计算步骤计算相关系数矩阵pppppprrrrrrrrrR212222111211rij(i,j=1,2,…,p)为原变量xi与xj的相关系数。计算特征值与特征向量①解特征方程,求出特征值,并使其按大小顺序排列,即②分别求出对应于特征值的特征向量要求=1,即,其中表示向量的第j个分量。0RE0,21pi),,2,1(pieiie112pjijeijeie计算主成分贡献率及累计贡献率•贡献率:•累计贡献率:),,2,1(11pipkkikk),,2,1(1pipkki一般选取累计贡献率达80%~90%的特征值所对应的第一,第二,…,第m个主成分。m,21,,计算主成分贡献率及累计贡献率),,2,1,(pjiexzpijiji),(nmnnmmzzzzzzzzzZ212222111211各主成分的得分:计算主成分载荷【补】以一个简单数字例子,说明在指标不多的情况下如何从相关矩阵R出发求特征值与相应的特征向量和主成份。例:有三个指标X1、X2、X3,得样本相关系数矩阵R1331.0867.0331.01632.0867.0632.01R相应的特征方程为01331.0867.0331.01632.0867.0632.01展开行列式求值后得λ的特征方程:0103.074.1323并可求得三个特征根:067.0688.0245.2321、、第一个特征值λ1=2.245对应的特征向量α1应满足方程组0245.21RE3121111且1231221211亦即有方程组0245.1331.0867.00331.0245.1632.00867.0632.0245.1312111312111312111解上述线性方程组,得5822.0314857.06520.02111、因此有0001245.2331.0867.0331.01245.2632.0867.0632.01245.2312111则第一主成份为32115822.04857.0652.0XXXF同样方法,对λ2λ3也可分别求出对应的特征向量和的值,从而也就得到第二、第三个主成份F2、F3。322212,,332313,,3.主成分分析方法应用实例【实例1】降维:流域系统的主成分分析某流域系统57个流域盆地的9项变量指标。x1:流域盆地总高度(m),x2:流域盆地山口的海拔高度(m),x3:流域盆地周长(m),x4:河道总长度(m),x5:河道总数,x6:平均分叉率,x7:河谷最大坡度(度),x8:河源数,x9:流域盆地面积(km2)。计算过程:①对原始数据作标准化处理,计算相关系数,得到相关系数矩阵。②由相关系数矩阵计算特征值、各个主成分的贡献率、累计贡献率。由贡献率表可知,第一,第二,第三主成分的累计贡献率已高达86.5%,故只需求出第一、第二、第三主成分z1,z2,z3即可。③对于特征值λ1=5.043,λ2=1.746,λ3=0.997分别求出其特征向量e1,e2,e3,再计算各变量x1,x2,…,x9在主成分z1,z2,z3上的载荷。相关系数矩阵表x1x2x3x4x5x6x7x8x9x1x2x3x4x5x6x7x8x91.000-0.3700.6190.6570.4740.0740.6070.4810.6891.000-0.017-0.157-0.150-0.274-0.566-0.158-0.0161.0000.8410.7370.1670.1620.7530.9101.0000.9210.0940.2170.9280.9371.0000.1650.1580.9990.7881.0000.1700.1810.0711.0000.1640.1581.0000.7991.000特征值及主成分贡献率表主成分特征值贡献率(%)累计贡献率(%)1234567895.0431.7460.9970.6100.3390.1720.0790.0140.000456.02919.39911.0766.7813.7781.9070.8730.1560.00456.02975.42886.50493.28597.06198.96799.84099.996100.00主成分载荷原变量主成分占方差的百分数(%)Z1Z2Z3x1x2x3x4x5x6x7x8x90.75-0.250.890.970.910.200.350.920.93-0.380.820.190.140.18-0.36-0.800.170.22-0.36-0.080.00-0.030.160.86-0.250.16-0.1083.0573.2082.1996.6388.2689.9783.1989.9092.16分析:①第一主成分z1与x1,x3,x4,x5,x8,x9有较大的正相关,由于这六个地理要素与流域盆地的规模有关,因此可看作是流域盆地规模的代表;②第二主成分z2与x2有较大的正相关,与x7有较大的负相关,而这两个地理要素是与流域切割程度有关的,因此可看作是流域侵蚀状况的代表;③第三主成分z3与x6有较大的正相关,而地理要素x6是流域比较独立的特性——河系形态的表征,因此可看作是河系形态的代表。主成分载荷原变量主成分占方差的百分数(%)Z1Z2Z3x1x2x3x4x5x6x7x8x90.75-0.250.890.970.910.200.350.920.93-0.380.820.190.140.18-0.36-0.800.170.22-0.36-0.080.00-0.030.160.86-0.250.16-0.1083.0573.2082.1996.6388.2689.9783.1989.9092.16④该流域系统的9项要素可以被归纳为三类:流域盆地的规模、流域侵蚀状况、流域河系形态。选取其中相关系数绝对值最大者作为代表,则流域面积、流域盆地出口的海拔高度和分叉率可作为这三类要素的代表,利用这三个要素代替原来九个要素进行系统分析,可以使问题大大地简化。分析:【实例2】综合评价:主成分分析除了可以用于降维处理以外,还可以用于综合评价研究。中国大陆31个省(市、区)第三产业综合发展水平的主成分分析与评估。吴玉鸣(2000)运用主成分分析法对中国大陆31个省(市、区)第三产业综合发展水平进行了定量评价研究。y1:人均GDPy2:人均第三产业增加值y3:第二产业增加值比重y4:第三产业增加值比重y5:第三产业从业人员比重y6:第三产业固定资产投资比重y7:城市化水平①选取表中的7项指标构成综合评价指标体系,首先对原始数据做标准化处理,然后计算各指标之间的相关系数矩阵。②计算出相关矩阵的特征值,以及各主成分的贡献率和累计贡献率。③计算主成分载荷。④计算各省(市、区)在第一、二、三主成分上的得分。过程相关系
本文标题:15主成分分析原理介绍
链接地址:https://www.777doc.com/doc-3359113 .html