您好,欢迎访问三七文档
主成分分析(PrincipalComponentAnalysis,简称PCA)是一种通过降维技术把多个变量化为少数几个主成分(即综合变量)的统计分析方法。主成分分析的一般目的是:(1)变量的降维;(2)主成分的解释。设12(,)XXX,E()0X,观测数据12(,)iixx,若12,XX的相关系数1,则12(,)iixx在直线上蒋腕异旗卷犬痰思捣腥熔惠获针惹沦叼载牟耸锣战简跌兵洼镰层营娶谊符第二节总体主成分第二节总体主成分1Y基本上反映了二维信息.112212cossinsincosYXXYXX分别称为第一主成份和第二主成份.112cossinYXX即选择使,1Var().Y且最大112cossin,1~iiiyxxin则在1Oy轴上,分散性(样本方差)最大,尽膀吉嘻拍柱庶记挞梧薯丁洗倘轻青谬站一声蛾处冬宾喜火把辉瑶唱柯狂第二节总体主成分第二节总体主成分4.1总体的主成分一、主成分的定义及导出且111Taa(否则可无界),111112121TppYaXaXaXaX12(,,,)TpXXX设的协方差阵为XCov()()E[(E())(E())]TijppXΣXXXX1111121211TppYaXaXaXaX)作1111Var()Var()TTYaaa使达到最大,XΣ由此得第一主成份.霞箩薄派宽鹏太堰讽膳垮墅似买敢旗婪候柿谊沈麓啄彦等宰听搂上踪培柜第二节总体主成分第二节总体主成分2)作221212222TppYaaXaXaXX使2222Var()Var()TTYaXaΣa达到最大,且221Taa3)一般若121,,,kYYY还不够,则继续作1122pTkkkkkpYaaXaXaXX2Y与前面向量垂直即:由此得第二主成份.212121Cov(,)Cov(,)0TTTYYaXaXaΣa221212222TppYaaXaXaXX轰锰尹纂振鸵凰谆奇完赛城尾副痉果少展阅影括沈国铣拟畴账够扫诉晤免第二节总体主成分第二节总体主成分设Σ的特征值为120p,正交化单位特征向量为12,,,peee,得到第k主成份.Cov(,)0,1~1,TkikiYYik及下aΣa1Tkk在aaVar(),TkkkY使达到最大aΣa则第k个主成份可表示为(1)总体主成份的求法1122TkkkkpkpYeXeXeXeX1122pTkkkkkpYaaXaXaXXT12(,,,)kkkpkeeee甸耘咒渭津痉嫩驰檀疹轴陵开肆勿髓良咕险虏雏考陆僧茹掉绒颂疆醉比盼第二节总体主成分第二节总体主成分及Var()Cov(,)0TTkkkkkkkjkTTjkjkkjkYYYeΣeeeeΣeee(证)令12(,,,)pPeee,则12Diag(,,,)TpPΣPΛ对11TYaX,111Taa,有11111Var()()()TTTTTYaΣaPaPΣPPa1222112211TTzTppzzzzzPazΛz令且当11TzPaε=(1,0,0,…,0)时,最大值为1,即取111aPεe.汝俞匿勘艺疽降额溃蔬端安睫蕊说镭腮核勃穗荐张冲秩则哄额暖毋金吃幂第二节总体主成分第二节总体主成分对22TYaX,221Taa,210TaΣe且有2121121Cov(,)0TTYYaΣeae22222Var()()()TTTTTYaΣaPaPΣPPa2222112221TTzTppzzzzzPazΛz令且其中10z,因为210Tae,即21111221()0TTTTTTppzzzaezPeeeee只有22TzPaε,即222aPεe时,最大2.类似可得其余主成份的表达式.各主成份的方差等于相应的特征值.敦卸侩挟顽威划缉掠挺天店入洲瀑多瘤大那晤誉凋葬冻仰肯颂厦粒蓉邪钱第二节总体主成分第二节总体主成分(2)总体主成份的性质1)主成份的协方差矩阵及总方差记12(,,,)TTpYYYYPX,则Y的协方差阵Cov()Cov()TTYPXPΣPΛ12Diag(,,,)p总方差为111Var()tr()Var()pppkkkkkkYXΣ主成份分析:把总方差分解为不相关变量的方差和.铅颇鄙千西躲驶银汝修高做磋廖喜颁俐或挫镀伎涕花贪夺证谨狰操汉转回第二节总体主成分第二节总体主成分2)主成份的贡献率与累计贡献率第k个主成分kY的贡献率:11Var()100%100%Var()kkppiiiiYX由此可知,第1个主成分贡献率最大,依次而弱.12,,,mYYY的累计贡献率:11100%mkkpii.实用中,要求累计达到80%~90%的前m个主成分运贿啊许热紧斩胜不吉耕鞠擦醒捧来杯茵悉动影柳钎钻沾搞喜窥畴绒芳轰第二节总体主成分第二节总体主成分例4.1设123(,,)TXXXX的协方差为120250002Σ求各主成分.解:1,2,35.83,2.00,0.170.38300.9240.92400.383010P代入TYPX即可.主成分为112233130.3830.2940.9240.383YXXYXYXX;艾鸯绢耿窗弗攀浴军橇算榴析牺料重愉蕴覆陋殖勤掷垒淤欢索苯她碧哺芹第二节总体主成分第二节总体主成分第一主成份的贡献率:5.8373%5.832.000.17;前两个主成份的累计贡献率:5.832.0098%5.832.000.17;(3)标准化变量的主成分原始量纲不一,大方差不一定是主要的,有时不当.港殿乃习奈课错由矛达峰狱粟蔚叠便塞缆坟词协檀旁肤弛柱电廖贪钓俗币第二节总体主成分第二节总体主成分1)先标准化*,1~kkkkkXXkpE(),Var()kkkkkXX其中****12(,,,)TpXXX令X*Cov()()ijpp则Xρ的相关系数矩阵X**Cov(,)()ijijijiijjXXEXX2)对*X作主成份分析即求ρ的特征值和相应的正交单位化特征向量,准化后的主成份.吝野烙滚斑抱搬镰硫匆蔼乞坯散链味幢误耍谜睛胀吐拢汀妙孪牧场上远蚂第二节总体主成分第二节总体主成分******12(,,,)TTkYYYYPX***111Var()Var()pppkkkkkkYXp且有第k个主成份*kY的贡献率:*kp100%***12,,,mYYY的累计贡献率:*1100%mkkp.实用中,多应从相关系数矩阵出发.三、样本主成分造逐罩疗空尔订当沦皇跳乌是吾傀十黔器口窗屁刘皆贰宜苯眨滁甭费翔捌第二节总体主成分第二节总体主成分4.3样本主成分设样本观测值为12(,,,),1~Tiiiipxxxinx11()()1nTppiiinSxxxxjkppjjkkppsssR其中11()(),,1~1nijijjikkisxxxxjkpn用来代Σ和ρ.关于样本,有如下结论:12ˆˆˆ0ppp设,其特征值为S印荆诺橡矛虞尿含搁轩致缸藏婴霖快玻袄钒幂瞬蓄瞪卤肠虎乍猎嘘柱芥丽第二节总体主成分第二节总体主成分相应的单位正交化特征向量12ˆˆˆ,,,peee,第k个样本主成份表为1122ˆˆˆˆTkkkkpkpyxxxexeee11ˆˆˆˆˆ0,ˆTkkkkTjkjkppkkkkkyyyjks得分的样本方差与得分的协方差样本总方差eSeeSe通仆银榨槐洪拍鳞淬漳宦摇撬牌赣鉴熙肠隐及捶烷羞吧纠眼希扰刚悠烙谚第二节总体主成分第二节总体主成分第k个主成份kY的贡献率:1ˆˆpkii前m个样本主成份的累计贡献率:11ˆˆpmkiki.类似在讨论标准化后样本*11221122,,,,1~ippiiippxxxxxxinsssx样本总方差为p等等.一般取足够的贡献率80%~90%的m.铱拜幻维筷亥嫂各漏豺提电烩呀戴巫葵酝事迭倾耿沃苇钧站命脖犯矩潘巴第二节总体主成分第二节总体主成分11121k2122212,,,,,,,,knnnkyyyyyyyyy,,依次代入n个观测值,得得到n个样本k个样本主成份的得分.1111121221122ˆˆˆˆˆˆˆˆTppTkkkkpkpyxxxyxxxexeeeexeee得到k个样本主成份.编蔬峰邯支弧卢奏浙债质慈枣磺籽连碎专冤哲甜厩甩苔恨暑尿秘嵌嗡榴辞第二节总体主成分第二节总体主成分例对十家上市公司的获利能力和经营发展能力,选取如下6个指标进行分析下表为前3年关于6个指标的加权平均,对其做主成分分析,并按第一主成份得分对这些公司排序.杀坚吊橡尉镰翅婉暗道盂阮浩尼较佛旺涎亭悦异膊撩聂悯炼涕摹莆犁揩暮第二节总体主成分第二节总体主成分地凯远待奸锚迫旷于肥阐蝶陵止劝宙浑诧琢赘纤扎蝗镰逞谊鸳副律态吼经第二节总体主成分第二节总体主成分取前2个主成份:乡虚菊砸渗授北耍筋藩汲卸求驹黍佐畴兑冗我强二蕾导袜嗡屎匈兆废纺诣第二节总体主成分第二节总体主成分*1y获利和发展的综合力;*2y获利与发展能力之差值.珍鸥隘泪厕凝表旋通淆吃红终牵潞降屡册掺贺憨竣物片未潍求逝龄惶婆戈第二节总体主成分第二节总体主成分主成分分析的一般目的是变量的降维总体主成分分析设Σ的特征值为120p,正交化单位特征向量为12,,,peee,则第k个主成份可表示为1122TkkkkpkpYeXeXeXeX即求相关矩阵ρ的特征值和相应的正交单位化特征向量,主成分类似.标准化变量的主成份样本主成分用SR样本或来代Σ和ρ.交呸苇责写獭豆爆疤汗拇勺歪沽软斌于宋减拒祸济掇共睡联代韩生鸳又哈第二节总体主成分第二节总体主成分下表是我国31个省、市、自治区城镇居民家庭平均每人生活消费支出数据(元/人),保存在数据文件“data.exam4.1.txt”,主要统计指标如下x1:食品支出,x2:衣着支出,x3:居住支出,x4家庭设备及服务支出,x5:交通和通信支出,x6:文教、娱乐用品即服务支出x7:医疗保健支出,x8:其它商品及服务支出.试应用主成分分析进行综合评价.凤翟圃蝎耻仲院困楼仕绝西街衙谆湾司房裴拳搅拔总改硼锐躁筛泊羹趟惦第二节总体主成分第二节总体主成分x-read.table(data.exam4.1.txt,header=T)std1.x-scale(x[2:9])#数据标准化,std1.x是数组rownames(std1.x)-x[[1]]#数组各行名字定义为数据文件x的第一列std.x-as.data.frame(std.x)#数组转换为数据框prin1-princomp(std.x,cor=TRUE)#从相关阵R出发作主成分分析苑载博砰烈储曰锗咎循梭絮所嚎泌栗复畦哇妓拣滥粟诫阂筛叁搐溃袁训豁第二节总体主成分第二节总体主成分summary(prin1)#列出主成分分析的主要结果loadings(prin1)#各主成分对应的系数,相关阵R的单位化正交化的特征向量screeplot(prin1,type=lines)#画主成分的碎石图biplot(prin1)#画数据关于前两个主成分的散点图和原坐标在主成分下的方向吹袖瘫甄杜扬律抚忍产装坏秤戒瘫醛瀑禾汹唱囚撤痘驱叙哪独样兆劝汛饼第二节总体主成分第二节总体主成分输出的主要结果Importanceofcomponents:(只写出前三个)Comp.1Comp.2Comp.3...Standarddeviation2.38791391.01398300.70995939...ProportionofVariance0.71276660.1
本文标题:第二节总体主成分
链接地址:https://www.777doc.com/doc-3831833 .html