您好,欢迎访问三七文档
当前位置:首页 > 临时分类 > SAS学习系列33.-主成分分析
33.主成分分析(一)原理一、基本思想主成份分析,是数学上对数据降维的一种方法,是将多个变量转化为少数综合变量(集中了原始变量的大部分信息)的一种多元统计方法。其主要目的是将变量减少,并使其改变为少数几个相互独立的线性组合形成的新变量(主成份,其方差最大),使得原始资料在这些成份上显示最大的个别差异来。在所有的线性组合中所选取的F1应该是方差最大的,称为第一主成分。如果第一主成分不足以代表原来所有指标的信息,再考虑选取第二个线性组合F2,称为第二主成分。为了有效地反映原有信息,F1已有的信息就不需要再出现在F2中,用数学语言表达就是要求Cov(F1,F2)=0.依此类推可以构造出第三、第四、…、第p个主成分。主成份分析,可以用来综合变量之间的关系,也可用来减少回归分析或聚类分析中的变量数目。二、基本原理设有n个样品(多元观测值),每个样品观测p项指标(变量):X1,…,Xp,得到原始数据资料阵:其中,Xi=(x1i,x2i,…,xni)T,i=1,…,p.用数据矩阵X的p个列向量(即p个指标向量)X1,…,Xp作线性组合,得到综合指标向量:简写成:Fi=a1iX1+a2iX2+…+apiXpi=1,…,p限制系数ai=(a1i,a2i,…,api)T为单位向量,即且由下列原则决定:(1)Fi与Fj互不相关,即COV(Fi,Fj)=aiT∑ai=0,其中∑为X的协方差矩阵;(2)F1是X1,X2,…,Xp的所有满足上述要求的线性组合中方差最大的,即F2是与F1不相关的X1,…,Xp所有线性组合中方差最大的,…,Fp是与F1,…,Fp-1都不相关的X1,…,Xp所有线性组合中方差最大的。满足上述要求的综合指标向量F1,F2,…,Fp就是主成分,这p个主成分从原始指标所提供的信息总量中所提取的信息量依次递减,每一个主成分所提取的信息量用方差来度量,主成分方差的贡献就等于原指标相关系数矩阵相应的特征值λi,每一个主成分的组合系数ai=(a1i,a2i,…,api)T就是特征值λi所对应的单位特征向量。方差的贡献率为αi越大,说明相应的主成分反映综合信息的能力越强。注:主成分分析是将原始变量组成的坐标系进行平移变换,使得新的坐标原点和数据群点的重心重合。新坐标第一轴与数据变化最大方向对应。F1,F2,…,Fp可以理解为p维空间中互相垂直的p个坐标轴。三、基本步骤1.计算样品数据协方差矩阵Σ=(sij)pp,其中2.求出Σ的特征值及相应的特征向量λ1λ2…λp0,及相应的正交化单位特征向量:则X的第i个主成分为Fi=aiTX,i=1,…,p.3.选择主成分在已确定的全部p个主成分中合理选择m个来实现最终的评价分析。一般用方差贡献率解释主成分Fi所反映的信息量的大小,m的确定是用累计贡献率达到足够大(一般在85%以上)为原则。4.计算n个样品在m个主成分得分5.数据的标准化实际应用时,指标的量纲往往不同,所以在主成分计算之前应先消除量纲的影响。消除数据的量纲有很多方法,常用方法是将原始数据标准化其中,即把每列变为均值为0,方差为1.注:标准化后变量的协方差矩阵Σ=(sij)pp,与原变量的相关系数矩阵R=(rij)pp相同,故主成分分析可以从原始变量数据的相关系数矩阵,也可以从标准化数据的协方差矩阵出发做分析。(二)PROCPRINCOMP过程步基本语法:PROCPRINCOMPdata=数据集可选项;BY变量;FREQ变量;ID变量;PARTIAL变量列表;VAR变量变量;WEIGHT变量;说明:(1)可选项type=COV/CORR原始数据用CORR(相关系数矩阵,默认);标准化数据用COV(协方差矩阵);out=数据集——存储原始数据和各主成分得分(相应特征值);outstat=数据集——存储若干统计量;n=——设定主成分个数;std——OUT=数据集中,将主成分得分标准化为单位方差;noint——要求模型中不含截距。(2)VAR语句——指定做主成分分析的变量;(3)PARTIAL语句——指明对偏相关阵或偏协方差矩阵进行分析时,被偏出去的数值变量名。例1对全国30个省市自治区经济发展基本情况的八项指标作因子分析。省份GDPx1居民消费水平x2固定资产投资x3职工平均工资x4货物周转量x5居民消费价格指数x6商品零售价格指数x7工业总产值x8北京1394.892505519.018144373.9117.3112.6843.43天津920.112720345.466501342.8115.2110.6582.51河北2849.521258704.8748392033.3115.2115.81234.85山西1092.481250290.94721717.3116.9115.6697.25内蒙古832.881387250.234134781.7117.5116.8419.39辽宁2793.372397387.9949111371.1116.11141840.55吉林1129.21872320.454430497.4115.2114.2762.47黑龙江2014.532334435.734145824.8116.1114.31240.37上海2462.575343996.489279207.4118.71131642.95江苏5155.2519261434.9559431025.5115.8114.32026.64浙江3524.7922491006.396619754.4116.6113.5916.59安徽2003.5812544744609908.3114.8112.7824.14福建2160.522320553.975857609.3115.2114.4433.67江西1205.111182282.844211411.7116.9115.9571.84山东5002.3415271229.5551451196.6117.6114.22207.69河南3002.741034670.3543441574.4116.5114.91367.92湖北2391.421527571.684685849120116.61220.72湖南2195.71408422.6147971011.8119115.5843.83广东5381.7226991639.838250656.5114111.61396.35广西1606.151314382.595105556118.4116.4554.97海南364.171814198.355340232.1113.5111.364.33四川35341261822.544645902.3118.51171431.81贵州630.07942150.844475301.1121.4117.2324.72云南1206.6812613345149310.4121.3118.1716.65西藏55.98111017.8773824.2117.3114.95.57陕西1000.031208300.274396500.9119117600.98甘肃553.351007114.815493507119.8116.5468.79青海165.31144547.76575361.6118116.3105.8宁夏169.75135561.985079121.8117.1115.3114.4新疆834.571469376.955348339119.7116.7428.76代码:dataEconomics;infile'C:\MyRawData\Economics.txt';inputProvince$x1x2x3x4x5x6x7x8;run;procprincompdata=Economicsn=3out=Resustsplots=score(ellipsencomp=2);idProvince;varx1-x8;run;procprintdata=Resusts;run;运行结果及说明:PRINCOMP过程观测30变量8简单统计量x1x2x3x4x5x6x7x8均值1921.0926671745.933333511.50833335457.633333666.1200000117.2866667114.9066667862.9980000StD1474.806031861.641934402.88547651310.218052459.93526042.02531111.8980813584.5872585相关矩阵x1x2x3x4x5x6x7x8x11.00000.26680.95060.19060.6172-.2726-.26360.8737x20.26681.00000.42610.7181-.1510-.2351-.59270.3631x30.95060.42611.00000.39960.4306-.2805-.35910.7919x40.19060.71810.39961.0000-.3556-.1350-.53920.1044x50.6172-.15100.4306-.35561.0000-.25320.02170.6586x6-.2726-.2351-.2805-.1350-.25321.00000.7628-.1252x7-.2636-.5927-.3591-.53920.02170.76281.0000-.1921x80.87370.36310.79190.10440.6586-.1252-.19211.0000相关系数矩阵可以看出,相关性较强的变量依次是x1(GDP)与x3(固定资产投资),r13=0.9506x1(GDP)与x8(工业总产值),r18=0.8737x3(固定资产投资)与x8(工业总产值),r38=0.7919x6(居民消费价格指数)与x7(商品零售价格指数),r67=0.7628相关矩阵的特征值特征值差值比例累积13.755128081.558392080.46940.469422.196736000.981844220.27460.744031.214891770.15190.8958给出相关系数矩阵的特征值、上下特征值之差、各主成分对方差的贡献率以及累积的贡献率。相关系数矩阵的特征值即各主成分的方差,可以看出,第一主成分对方差的贡献率为46.94%,第二主成分对方差的贡献率为27.46%,第三主成分对方差的贡献率为15.19%。前三个主成分的累积贡献率为89.58%85%,因此,用前三个主成分就可以很好地概括这组数据。特征向量Prin1Prin2Prin3x10.4566500.2588280.109669x20.313091-.4036010.246160x30.4704750.1087060.192322x40.240591-.4874080.333810x50.2507090.498125-.249714x6-.2624400.1699630.722755x7-.3197340.4010280.396976x80.4245640.2879080.191413给出三个特征值(主成分)的特征向量,由此可以得到三个主成分的用原变量的线性组合表示(*表示列向量的标准化):Prin1=0.46x1*+0.31x2*+0.47x3*+0.24x4*+0.25x5*–0.26x6*–0.32x7*+0.42x8*Prin2=0.26x1*–0.40x2*+0.11x3*–0.49x4*+0.50x5*+0.17x6*+0.40x7*+0.29x8*Prin3=0.11x1*+0.25x2*+0.19x3*+0.33x4*–0.25x5*+0.72x6*+0.40x7*+0.19x8*可见,第一主成分中x3、x1、x8的系数最大;第二主成分中x5、x7具有较大的正系数,x4、x2则具有较大的负系数;第三主成分中x6的系数最大,远远超过其他指标的影响。因此,可以把第一主成分看成是由固定资产投资(x3)、GDP(x1)、工业总产值(x8)所刻画的反映经济发展水平的综合
本文标题:SAS学习系列33.-主成分分析
链接地址:https://www.777doc.com/doc-8522525 .html