您好,欢迎访问三七文档
当前位置:首页 > 商业/管理/HR > 资本运营 > 主成分分析及R语言案例
上海大学2013~2014学年春季学期研究生课程考试课程名称:统计中的矩阵应用课程编号:01SAQ9005论文题目:主成分分析及R语言案例研究生姓名:李腾龙学号:13720067研究生班级:理学院统计系论文评语:成绩:任课教师:评阅日期:主成分分析及R语言案例摘要:本文目的在于,在基于主成分分析方法的基础上,给出实际操作中主成分分析方法的具体步骤,并同时叙述了作者对主成分分析的一些想法和心得。更重要的是,通过本次论文的学习,更加深入地学习了统计中的矩阵应用的相关知识点,并通过一个案例分析,使自己能够初步了解并掌握R语言统计分析软件的使用方法。关键词:主成分分析、R语言、特征值、特征向量一、引言在用统计分析方法研究多变量的课题时,变量个数太多就会增加课题的复杂性。人们自然希望变量个数较少而得到的信息较多。在很多情形,变量之间是有一定的相关关系的,当两个变量之间有一定相关关系时,可以解释为这两个变量反映此课题的信息有一定的重叠。主成分分析是对于原先提出的所有变量,建立尽可能少的新变量,使得这些新变量是两两不相关的,而且这些新变量在反映课题的信息方面尽可能保持原有的信息。主成分分析(PrincipalComponentAnalysis,PCA),就是将多个变量通过线性变换以选出较少个数重要变量的一种多元统计分析方法。又称主分量分析。主成分分析所关心的问题,是通过一组变量的几个线性组合来解释这组变量的方差-协方差结构,它的一般目的是:(1)数据的压缩;(2)数据的解释。虽然要求p个成分可以再现全系统的变异性,但大部分变异性常常只用少数k个主成分就可以说明。出现这种情况时,这k个主成分中所包含的信息和那p个原变量所包含的(几乎)一样多。于是这k个主成分就可以用来取代那初试的p个变量,并且由对p个变量的n次测量值所组成的原始数据,就压缩为对k个主成分的n次测量值所组成的数据集。二、主成分分析基本原理2.1主成分的定义概念:主成分分析是把原来多个变量划为少数几个综合指标的一种统计分析方法。从数学角度来看,这是一种降维处理技术。思路:一个研究对象,往往是多要素的复杂系统。变量太多无疑会增加分析问题的难度和复杂性,利用原变量之间的相关关系,用较少的新变量代替原来较多的变量,并使这些少数变量尽可能多的保留原来较多的变量所反应的信息,这样问题就简单化了。原理:假定有n个样本,每个样本共有p个变量,构成一个n×p阶的数据矩阵,记原变量指标为pxxx,,,21,设它们降维处理后的综合指标,即新变量为)(,,,21pmYYYm,则主成分是那些不相关的线性组合,)(,,,21pmYYYm,使他们的方差尽可能的大。因此我们定义:第一主成分=线性组合Xa1,在111aa时,它使)(1XaVar最大;第二主成分=线性组合xa2,在122aa和0),(21XaXaCov时,它使)(2XaVar最大;第i个主成分=线性组合Xai,在1iiaa和)(0),(ikXaXaCovki时,它使)(XaVari最大;npnnppxxxxxxxxxX212222111211pmpmmmppppxaxaxaYxaxaxaYxaxaxaY22112222121212121111............2.2基本结论结论8.1:设是随机向量],,[21pXXXX的协方差矩阵,他有特征值—特征向量),(,),,(),,(2211ppeee,其中p21,则第i个主成分由piXeXeXeXeYpipiiii,2,1,2211给出,此时:kieeYYCovpieeYVarkikiiiii0),(,,2,1)(如果有某些i相等,那么对应的系数向量ie的选取从而i的选取,就都不是唯一的了。结论8.2:随机变量21pXXXX具有协方差矩阵,其特征值-特征向量为),(,),,(),,(2211ppeee,其中021p,设第i个主成分为piXeYii,2,1,则总体总方差piippiippYX12112211)Var()Var(从而有:pkpk,,2,1k21个主成分的比例总方差中属于第如果总方差的相当大的部分归因于第一个、前两个或前三个主成分,而p较大,那么这些成分就可以“取代”原来的p个变量,而且信息损失不多。结论8.3:如果piXeYii,2,1,是从协方差矩阵所得到的主成分,则pkieρkkiikXYki,,2,1,,,是kiXY和之间的相关系数。三、主成分分析法的计算步骤主成分分析的具体步骤如下:(1)计算协方差矩阵计算样品数据的协方差矩阵:ppijs)(,其中11()()1nijkiikjjksxxxxnpji,2,1,(2)计算特征值和特征向量求出的特征值i及相应的正交化单位特征向量ia:解特征方程0||I,常用雅可比法(Jacobi)求出特征值,并使其按大小顺序排列021p的前m个较大的特征值021m,就是前m个主成分对应的方差,i对应的单位特征向量ia就是主成分iY的关于原变量的系数,则原变量的第i个主成分iY为:XaYii主成分的方差(信息)贡献率用来反映信息量的大小,ia为:1/miiii(3)选择主成分最终要选择几个主成分,即mYYY,,,21中m的确定是通过方差(信息)累计贡献率G(m)来确定11()/pmikikGm当累积贡献率大于85%时,就认为能足够反映原来变量的信息了,对应的m就是抽取的前m个主成分。(4)计算主成分载荷主成分载荷是反映主成分iY与原变量jx之间的相互关联程度,原来变量),,2,1(pjxj在诸主成分),,2,1(miYi上的荷载),,2,1;,,2,1(pjmilij:),,2,1;,,2,1(),(pjmiaxYlijiji(5)计算主成分得分计算样品在m个主成分上的得分:miXaXaXaYppiiii,,2,12211实际应用时,指标的量纲往往不同,所以在主成分计算之前应先消除量纲的影响。消除数据的量纲有很多方法,常用方法是将原始数据标准化,即做如下数据变换:*1,2,...,;1,2,...,ijjijjxxxinjps其中:11njijixxn,2211()1njijjisxxn根据数学公式知道,①任何随机变量对其作标准化变换后,其协方差与其相关系数是一回事,即标准化后的变量协方差矩阵就是其相关系数矩阵。②另一方面,根据协方差的公式可以推得标准化后的协方差就是原变量的相关系数,亦即,标准化后的变量的协方差矩阵就是原变量的相关系数矩阵。也就是说,在标准化前后变量的相关系数矩阵不变化。根据以上论述,为消除量纲的影响,将变量标准化后再计算其协方差矩阵,就是直接计算原变量的相关系数矩阵,所以主成分分析的实际常用计算步骤是:1.计算相关系数矩阵2.求出相关系数矩阵的特征值i及相应的正交化单位特征向量ia3.选择主成分4.计算主成分得分总结:原指标相关系数矩阵相应的特征值i为主成分方差的贡献,方差的贡献率为1/piiii,i越大,说明相应的主成分反映综合信息的能力越强,可根据i的大小来提取主成分。每一个主成分的组合系数(原变量在该主成分上的载荷)i就是相应特征值i所对应的单位特征向量。四、案例分析-对GDP影响因素的主成分分析本小节我们利用R语言软件,对此案例进行主成分分析,目的在于通过实践加深对主成分分析方法的印象,通过自己编写R语言程序,初步了解并掌握R语言统计分析软件的使用。样本数据如下:1989—2002年中国GDP及其影响因素:我们将GDP模型的解释变量确定为税收(SS),社会消费品零售总额(XFP),全国固定资产投资(TZ),从业人口数(RK),教育投资(JY),实际利用外资额(WZ),进出口总额(JCK)7个变量。第一步:利用R语言将数据导入,先将数据存为GDP.csv文件,再导入R语言:x-read.csv(file=C:\\Users\\LTL\\Desktop\\GDP.csv,header=TRUE)yearGDPSSXFPTZRKJYWZJCK198916909.22727.48101.44410.4553295294327.1100.594156199017625.432821.868050.534517647496577836.3102.895560.1199119232.272990.1791065594.5654917315028.2115.547225.8199221935.253296.9110332.428080.1661528670490.5192.029119.6199324812.624255.310864.9513072.36680810599374.4389.611271199427945.335126.8813106.1217042.16745514887812.6432.1320381.9199530461.476038.0417608.8820019.36806518779501.1481.3323499.9199633432.266909.8222875.4422913.56895022623393.5548.0424133.8199736303.48234.0426555.3524941.16982025317325.7644.0826967.2199839137.179262.829387.628406.27063729490592585.5726849.7199941946.0310682.5831576.7729854.77139433490416.4526.5929896.2200045471.1112581.5134016.5332917.77208538490805.8593.5639273.2200148653.6515301.3837333.8637213.57302546376626.2496.7242183.6200252691.9117636.4540951.4543499.97374057213764.5550.1151378.2得到结果:第二步:经济数据通常取对数后进行分析,利用R语言将上述数据对数化:year-x$yearlnGDP-log(x$GDP)LnSS-log(x$SS)LnXFP-log(x$XFP)LnTZ-log(x$TZ)LnRK-log(x$RK)LnJY-log(x$JY)LnWZ-log(x$WZ)LnJCK-log(x$JCK)lnx-cbind(LnSS,LnXFP,LnTZ,LnRK,LnJY,LnWZ,LnJCK)结果:第三步,主成分分析,求出lnx的相关系数矩阵(CorrelationMatrix):corrx-cor(lnx)#求lnx的相关系数矩阵第四步,求相关系数矩阵的特征值以及特征向量:ev-eigen(corrx)#计算corrx的特征值及特征向量第五步,确定主成份:从以上程序的运行结构可以看到,相关系数矩阵的特征值从大到小分别为:0.00050083,0.00182343,0.00972997,0.02284396,0.21388028,0.22796303,6.523258507654321故第一个特征根的累积贡献率达到了93.19%,这说明第一个主成分代表了原来七个因素93.19%的信息,从碎石图中我们也可得到同样的结论plot(ev$values,type='l',xlab='i',ylab='lambda')#特
本文标题:主成分分析及R语言案例
链接地址:https://www.777doc.com/doc-6260594 .html