您好,欢迎访问三七文档
当前位置:首页 > 商业/管理/HR > 资本运营 > 第一、二节总体主成分
主成分分析(PrincipalComponentAnalysis,简称PCA)是一种通过降维技术把多个变量化为少数几个主成分(即综合变量)的统计分析方法。主成分分析的一般目的是:(1)变量的降维;(2)主成分的解释。设12(,)XXX,E()0X,观测数据12(,)iixx,若12,XX的相关系数1,则12(,)iixx在直线上1Y基本上反映了二维信息.112212cossinsincosYXXYXX分别称为第一主成份和第二主成份.112cossinYXX即选择使,1Var().Y且最大112cossin,1~iiiyxxin则在1Oy轴上,分散性(样本方差)最大,4.1总体的主成分一、主成分的定义及导出且111Taa(否则可无界),111112121TppYaXaXaXaX12(,,,)TpXXX设的协方差阵为XCov()()E[(E())(E())]TijppXΣXXXX1111121211TppYaXaXaXaX)作1111Var()Var()TTYaaa使达到最大,XΣ由此得第一主成份.2)作221212222TppYaaXaXaXX使2222Var()Var()TTYaXaΣa达到最大,且221Taa3)一般若121,,,kYYY还不够,则继续作1122pTkkkkkpYaaXaXaXX2Y与前面向量垂直即:由此得第二主成份.212121Cov(,)Cov(,)0TTTYYaXaXaΣa221212222TppYaaXaXaXX设Σ的特征值为120p,正交化单位特征向量为12,,,peee,得到第k主成份.Cov(,)0,1~1,TkikiYYik及下aΣa1Tkk在aaVar(),TkkkY使达到最大aΣa则第k个主成份可表示为(1)总体主成份的求法1122TkkkkpkpYeXeXeXeX1122pTkkkkkpYaaXaXaXXT12(,,,)kkkpkeeee及Var()Cov(,)0TTkkkkkkkjkTTjkjkkjkYYYeΣeeeeΣeee(证)令12(,,,)pPeee,则12Diag(,,,)TpPΣPΛ对11TYaX,111Taa,有11111Var()()()TTTTTYaΣaPaPΣPPa1222112211TTzTppzzzzzPazΛz令且当11TzPaε=(1,0,0,…,0)时,最大值为1,即取111aPεe.对22TYaX,221Taa,210TaΣe且有2121121Cov(,)0TTYYaΣeae22222Var()()()TTTTTYaΣaPaPΣPPa2222112221TTzTppzzzzzPazΛz令且其中10z,因为210Tae,即21111221()0TTTTTTppzzzaezPeeeee只有22TzPaε,即222aPεe时,最大2.类似可得其余主成份的表达式.各主成份的方差等于相应的特征值.(2)总体主成份的性质1)主成份的协方差矩阵及总方差记12(,,,)TTpYYYYPX,则Y的协方差阵Cov()Cov()TTYPXPΣPΛ12Diag(,,,)p总方差为111Var()tr()Var()pppkkkkkkYXΣ主成份分析:把总方差分解为不相关变量的方差和.2)主成份的贡献率与累计贡献率第k个主成分kY的贡献率:11Var()100%100%Var()kkppiiiiYX由此可知,第1个主成分贡献率最大,依次而弱.12,,,mYYY的累计贡献率:11100%mkkpii.实用中,要求累计达到80%~90%的前m个主成分例4.1设123(,,)TXXXX的协方差为120250002Σ求各主成分.解:1,2,35.83,2.00,0.170.38300.9240.92400.383010P代入TYPX即可.主成分为112233130.3830.2940.9240.383YXXYXYXX;第一主成份的贡献率:5.8373%5.832.000.17;前两个主成份的累计贡献率:5.832.0098%5.832.000.17;(3)标准化变量的主成分原始量纲不一,大方差不一定是主要的,有时不当.1)先标准化*,1~kkkkkXXkpE(),Var()kkkkkXX其中****12(,,,)TpXXX令X*Cov()()ijpp则Xρ的相关系数矩阵X**Cov(,)()ijijijiijjXXEXX2)对*X作主成份分析即求ρ的特征值和相应的正交单位化特征向量,准化后的主成份.******12(,,,)TTkYYYYPX***111Var()Var()pppkkkkkkYXp且有第k个主成份*kY的贡献率:*kp100%***12,,,mYYY的累计贡献率:*1100%mkkp.实用中,多应从相关系数矩阵出发.三、样本主成分4.3样本主成分设样本观测值为12(,,,),1~Tiiiipxxxinx11()()1nTppiiinSxxxxjkppjjkkppsssR其中11()(),,1~1nijijjikkisxxxxjkpn用来代Σ和ρ.关于样本,有如下结论:12ˆˆˆ0ppp设,其特征值为S相应的单位正交化特征向量12ˆˆˆ,,,peee,第k个样本主成份表为1122ˆˆˆˆTkkkkpkpyxxxexeee11ˆˆˆˆˆ0,ˆTkkkkTjkjkppkkkkkyyyjks得分的样本方差与得分的协方差样本总方差eSeeSe第k个主成份kY的贡献率:1ˆˆpkii前m个样本主成份的累计贡献率:11ˆˆpmkiki.类似在讨论标准化后样本*11221122,,,,1~ippiiippxxxxxxinsssx样本总方差为p等等.一般取足够的贡献率80%~90%的m.11121k2122212,,,,,,,,knnnkyyyyyyyyy,,依次代入n个观测值,得得到n个样本k个样本主成份的得分.1111121221122ˆˆˆˆˆˆˆˆTppTkkkkpkpyxxxyxxxexeeeexeee得到k个样本主成份.例对十家上市公司的获利能力和经营发展能力,选取如下6个指标进行分析下表为前3年关于6个指标的加权平均,对其做主成分分析,并按第一主成份得分对这些公司排序.取前2个主成份:*1y获利和发展的综合力;*2y获利与发展能力之差值.主成分分析的一般目的是变量的降维总体主成分分析设Σ的特征值为120p,正交化单位特征向量为12,,,peee,则第k个主成份可表示为1122TkkkkpkpYeXeXeXeX即求相关矩阵ρ的特征值和相应的正交单位化特征向量,主成分类似.标准化变量的主成份样本主成分用SR样本或来代Σ和ρ.下表是我国31个省、市、自治区城镇居民家庭平均每人生活消费支出数据(元/人),保存在数据文件“data.exam4.1.txt”,主要统计指标如下x1:食品支出,x2:衣着支出,x3:居住支出,x4家庭设备及服务支出,x5:交通和通信支出,x6:文教、娱乐用品即服务支出x7:医疗保健支出,x8:其它商品及服务支出.试应用主成分分析进行综合评价.x-read.table(data.exam4.1.txt,header=T)std1.x-scale(x[2:9])#数据标准化,std1.x是数组rownames(std1.x)-x[[1]]#数组各行名字定义为数据文件x的第一列std.x-as.data.frame(std.x)#数组转换为数据框prin1-princomp(std.x,cor=TRUE)#从相关阵R出发作主成分分析summary(prin1)#列出主成分分析的主要结果loadings(prin1)#各主成分对应的系数,相关阵R的单位化正交化的特征向量screeplot(prin1,type=lines)#画主成分的碎石图biplot(prin1)#画数据关于前两个主成分的散点图和原坐标在主成分下的方向输出的主要结果Importanceofcomponents:(只写出前三个)Comp.1Comp.2Comp.3...Standarddeviation2.38791391.01398300.70995939...ProportionofVariance0.71276660.12852020.06300529...CumulativeProportion0.71276660.84128680.90429210...Standarddeviation表示主成分的标准差,也就是特征值的开方,ProportionofVariance表示方差的贡献率CumulativeProportion分别和累积贡献率.为各主成分对应的系数,即相关阵R的单位化正交化的特征向量.前三个主成分为累积贡献率达到90%计算各个样本的主成分值pre-predict(prin1)#预测各个样本的主成分值cor(std1.x)y-eigen(cor(cor(std1.x)))#求std1.x的特征值和特征向量e1-y$values[1]e2-y$values[2]e3-y$values[3]#第一个特征值赋值于e1scores-(e1*pre[,1]+e2*pre[,2]+e3*pre[,3])/(e1+e2+e3)#计算每个样本的综合得分scores输出结果为(只写出部分结果)碎石图散点图
本文标题:第一、二节总体主成分
链接地址:https://www.777doc.com/doc-3229442 .html