您好,欢迎访问三七文档
主成分分析1实验原理在实际课题中,为了全面分析问题,往往提出很多与此有关的变量(或因素),因为每个变量都在不同程度上反映这个课题的某些信息。但是,在用统计分析方法研究这个多变量的课题时,变量个数太多就会增加课题的复杂性。人们自然希望变量个数较少而得到的信息较多。在很多情形,变量之间是有一定的相关关系的,当两个变量之间有一定相关关系时,可以解释为这两个变量反映此课题的信息有一定的重叠。主成分分析是对于原先提出的所有变量,建立尽可能少的新变量,使得这些新变量是两两不相关的,而且这些新变量在反映课题的信息方面尽可能保持原有的信息。主成分分析便是在这种降维的思想下产生的处理高维数据的方法。2实验举例使用procprincomp过程进行主成分分析,其主要语句格式如下:Procprincomp选项列表;Var变量列表;Run;其中:(1)Procprincomp语句用来规定输入、输出和一些运行选项,其选项及功能如下:①data=数据集名1:指明所要分析的数据集,若省略则表示分析最新生成的数据集。②out=数据集名2:命名一个输出SAS数据集,其中包含原始数据以及各主成分得分(即各主成分的观测值)。③outstat=数据集名3:命名一个包含各变量的均值、标准差、相关矩阵或协方差矩阵、特征值和特征向量的SAS数据集。④covariance(cov):要求从协方差矩阵出发作主成分分析,若省略此选项,则从相关矩阵出发进行分析;除非各变量的度量单位是可比较的或已经过某种方式的标准化,否则不宜使用此选项,应从相关矩阵出发作主成分分析。⑤N=n:指定要计算的主成分的个数,其默认值为参与分析的变量的个数。⑥prefix=name:规定各主成分名称的前缀。省略此句则SAS系统自动赋予各主成分名称分别为prin1,prin2,……;若“name=A”,则各主成分名称分别为A1,A2,……,前缀的字符个数加上后面数字位数应不超过8个字符。(2)VARvariables;此句中的“variables”部分列出数据集中参与主成分分析的变量名称。若省略此句,则被分析数据集中所有数值变量均参与分析。例1(中学生身体四项指标的主成分分析)在某中学随机抽取某年级30名学生,测量其身高(X1)、体重(X2)、胸围(X3)和坐高(X4)。试对这30名学生体四项指标数据做主成分分析。datazcf;inputnumberx1-x4@@;cards;114841727821393471763160497786414936677951594580866142316676715343768381504377799151427780101393168741114029647412161477884131584978831414033677715137316673161523573791714947827918145357077191604774872015644788521151427382221473873782315739688024147306575251574880882615136748027144366876281413067762913932687330148387078;procprincompdata=zcfprefix=zout=outzcf;/*主成分前缀为z,out为输出主成分后所得到的数据集,这里定义其名称为outzcf*/varx1-x4;/*利用x1至x4四个变量进行主成分分析*/run;optionsps=32ls=85;/*定义作图要求,高32,宽85*/procplotdata=outzcf;/*利用数据outzcf作图*/plotz2*z1$number='*'/href=-1href=2vref=0;/*用前两个主成分z1与z2交叉作图,图上所有点用*号表示出来,并在横坐标-1与2,纵坐标0处作垂线*/run;procsortdata=outzcf;/*设置数据集outzcf,使其按主成分z1从小到大排序*/byz1;run;procprintdata=outzcf;varnumberz1z2x1-x4;run;quit;PRINCOMP过程由相关阵出发进行主成分分析。从下面的相关阵来看,指标之间存在着严重的共线关系,就要用主成分的方法进行降维(也就是说用较少的指标就能很好衡量学生的身体基本情况。从相关阵的特征值来看,第一主成分的贡献率已高达88.53%,且前两个主成分的累计贡献率已高达96.36%,因此只需用两个主成分就能很好地概括这组数据。另由第四个特征值近似为0,可以看出这4个标准化后的身体指标变量有近似的共线性。由最大的两个特征值对应的特征向量可以写出第一和第二主成分:****11234****212340.4969660.5145710.4809010.5069280.5432130.2102460.7246210.368294ZXXXXZXXXX利用特征向量的值对各个主成分进行分析。第一主成分特征值对应的第一个特征向量的各个分量均在0.5附近,而且都是正值,它反映学生的魁梧程度。身体高大的学生,他的4个部位的尺度都比较大;而身体矮小的学生,他的4个部位的尺寸都比较小。因此我们可以称第一主成分为大小因子。第二大特征值对应的特征向量中第一和第四个分量均为负值,其它的都为正值,它反映学生的胖瘦情况,可称为形态因子。从第二主成分得分对第一主成分得分的散布图看,很直观地看出,按学生的身体指标尺寸,这30名学生大约分三组(以第一主成分得分值为-1和2为分界点)。每一组包括哪几名学生可由每一给散点旁边的序号可以得知。图1各变量的简单统计量四组变量的基本情况,mean为均值,std为标准差。图2主成分分析CorrelationMatrix相关系数矩阵,Eigenvalue特征值,Difference差值,Proportion比例,Cumulative累计贡献率,Eigenvectors特征向量。图3第一主成分与第二主成分交叉图图4按第一主成分排序打印的列表3实验内容1.表1是我国16个地区农民在1982年支出情况的抽样调查数据的汇总资料,每个地区都调查了反应每人平均生活消费支出情况的六个指标。现对这些数据进行主成分分析,并利用前2个主成分对16个地区的农民水平进行分类。表116个地区农民生活水平的调查数据地区食品(x1)衣着(x2)燃料(x3)住房(x4)生活用品及其他(x5)文化生活用品及其他(x6)北京190.3343.779.7360.5449.019.04天津135.2036.4010.4744.1636.493.94河北95.2122.839.3022.4422.812.80山西104.7825.116.409.8918.173.25内蒙128.4127.638.9412.5823.993.27辽宁145.6832.8317.7927.2939.093.47吉林159.3733.3818.3711.8125.295.22黑龙江116.2229.5713.2413.7621.756.04上海221.1138.6412.53115.6550.825.89江苏144.9829.1211.6742.6027.305.74浙江169.9232.7512.7247.1234.355.00安徽153.1123.0915.6223.5418.186.39福建144.9221.2616.9619.5221.756.73江西140.5421.5017.6419.1915.974.94山东115.8430.2612.2033.6133.773.85河南101.1823.268.4620.2020.504.302.某市为了全面分析机械类各企业的经济效益,选择了8个不同的利润指标,14家企业关于这8个指标的统计数据如表2所示。试进行主成分分析,并对所选取的主成分作出解释。表214家企业的利润指标的统计数据变量企业号净产值利润率固定资产利润率总产值利润率销售收入利润率产品成本利润率物耗利润率人均利润率流动资金利润率140.424.77.26.18.38.72.44220.0225.012.711.211.012.920.23.5429.1313.23.33.94.34.45.50.5783.6422.36.75.63.76.07.40.1767.3534.311.87.17.18.08.91.72627.5635.612.516.416.722.829.33.01726.6722.07.89.910.212.617.60.84710.6848.413.410.99.910.913.91.77217.8940.619.119.819.029.739.62.44935.81024.88.09.88.911.916.20.78913.71112.59.74.24.24.66.50.8743.9121.80.60.70.70.81.10.0561.01332.313.99.48.39.813.32.12617.11438.59.111.39.512.216.41.32711.63.用主成分分析方法探讨城市工业主体结构。表3是某市工业部门13个行业8项指标数据表3某市工业部门13个行业8项指标的数据年末固定资产净值(万元)职工人数(人)工业总产值(万元)全员劳动产率(元/人年)百元固定原资产值实现产值(元)资金利税率(%)标准燃料消费量(吨)能源利用效果(万元/吨)1(冶金)90342524551010911927282.00016.1001974350.1722(电力)4903197320351031334.2007.1005920770.0033(煤炭)6735211393767178036.1008.2007263960.0034(化学)4945436241815572250498.10025.9003482260.9855(机械)1391902035052158981060993.20012.6001395720.6286(建材)122151621910351638262.5008.7001458180.0667(森工)23726572810312329184.40022.200209210.1528(食品)11062230785493523804370.40041.000654860.2639(纺织)17111239075210821796221.50021.500638060.27610(缝纫)12063930612615586330.40029.50018400.43711(皮革)21505704620010870184.20012.00089130.27412(造纸)525161551038316875146.40027.500787960.15113(文艺用品)1434113203193961469194.60017.80063541.574(1)试用主成分分析方法确定8项指标的样本主成分(综合变量);若要求损失信息不超过15%,应取几个主成分;并对这几个主成分进行解释;(2)利用主成分得分对13个行业进行排序和分类。
本文标题:主成分分析
链接地址:https://www.777doc.com/doc-5725530 .html