您好,欢迎访问三七文档
主成分分析1主成分分析原理2理论主成分及主成分选择3样本主成分的计算过程4主成分分析的SPSS实现5主成分的应用主成分分析原理1X2X1Y2Y消除自变量间的相关性与多维变量降维坐标的旋转变换cossinsincos212211XXYXXY2121cossinsincosXXYY正交阵)()(21YDYD降维依据0),COV(21YY原理一般化满足(1)(2)XuXuXuXuXuXuXuXuXuXuXuXuYYYXXXXpppppppppppp221122222121112121112121)()()(21pYDYDYD0),cov(jiYYpji,,2,1,YUX正交或U为正交阵puuu,,,21主成分分析的基本问题每一个主成分的系数如何确定如何保留主成分如何解释主成分主成分系数的确定前提假设第一主成分的系数满足:XuXuXuXuYpp1121211110)(XE),cov(XX11111max),cov(max)(maxuuYYYD11:1uu正交性系数的求解)1(uuuuL1uuuumax结论若的特征值为对应的单位特征向量为:p21,11211puuu,22221puuuppppuuu21,P个主成分分别是:且(1)(2)或ppppppppppXuXuXuXuXuXuXuXuXuYYY22112222121121211121piYDii.,2,1,)(UXXUYY),cov(),cov(XUY或UU主成分的保留piipiiXDYD11)()(piiipii11主成分总方差=原变量的总方差)tr()tr(UU选择主成分的方法(1)贡献率:第i个主成分的贡献率为累积贡献率:前m个主成分的累积贡献率为选择法则:保留m个主成分pjjiir1mmrrr21%80m(Cumulative)选择主成分的方法(2)特征值大于1原则若则保留m个主成分111mm主成分的解释原始指标对各个主成分的贡献相关系数(因子载荷):——反映主成分依赖于指标的程度保留的m个主成分对的贡献——反映保留的主成分解释指标的程度iX),(ikXYiXmkikXY12),(主成分与指标间的相关系数1XXY保留主成分解释指标的程度2X3X1Y2Y11,YX3Y21,YX31,YX12,YX22,YX32,YX33,YX23,YX13,YX112122,,YXYX122222,,YXYX132322,,YXYX主成分与原指标间的相关系数XuXuXuXuYpp112121111iiueueuXeXuCOVXYCOV1111111),(),(iiiiiiuXDYDXYXY11111)()(),cov(),(111(,)iiYXu原始数据标准化主成分标准化11(,)iiYXum个主成分对原始指标的贡献——共同度(Communality)mkkikmkiiikiuXYv12121),(iX前m个主成分提取了中的信息iXiv原始数据与主成分标准化2211(,)mmikikikkvYXu由相关系数阵求主成分指标标准化iiiiiXZXZZR),cov(标准化变量的协方差阵为原始变量的相关系数阵求相关系数阵的特征值:和对应的单位特征向量:p21,11211puuu,22221puuuppppuuu21,写出p个主成分的表达式pppppXuXuXuY12222121111111pppppXuXuXuY22222221111212pppppppppXuXuXuY2222211111前m个主成分的累积贡献率:主成分与标准化指标间的相关系数pmkk1iiuZY111),(主成分的方差样本主成分的计算过程求数据的样本相关系数阵求的特征值和所对应的单位特征向量:RRp21pppppppuuuuuuuuuuuu21222212112111,,,(CorrelationMatrices)(Eigenvalues)(Eigenvectores)主成分的系数写出p个主成分的表达式:是样本均值,是样本标准差ppppsXXusXXusXXuY122212111111ppppsXXusXXusXXuY222222111212ppppppppsXXusXXusXXuY22221111pXXX,,,21psss,,,21标准化数据主成分分析的SPSS实现AnalyzeDataReductionFactor选取点击点击点击1点击2点击可选可选可选点击点击点击1点击2点击3可选例题2005年我国各地区社会发展数据主成分的最后得分点击1点击2计算命名点击计算命名点击主成分的应用(1)%801r利用第一主成分进行综合评价ppxaxaxacy22111第一主成分的系数都大于0第一主成分的贡献率超过80%0ia(正向指标)主成分综合评价的SPSS实现TransformRankCases点击1点击2可选点击主成分的应用(2)。ppxaxaxacy121211111ppxaxaxacy222212122利用第一、二个主成分进行分类若第一、二个主成分的累积贡献率,则由第一、二个主成分在平面上的散点图,实现对样品进行分类280%主成分分类的SPSS实现GraphsScatter确定点击点击点击点击点击主成分回归(应用3)y第二步第三步第一步建立因变量与自变量之间的回归方程若发现自变量之间有多重共线性,利用的样本数据进行主成分分析若主成分的累积贡献率超过85%,则建立与的回归方程pxxx,,,21pxxx,,,21myyy,,,21myyy,,,21y科研案例韩伟,李钢.主成分分析在地区科技竞争力评测中的应用.数理统计与管理.2006,25(5):512-517摘要近年来对于科技竞争力的研究在国内方兴未艾,其中对于科技竞争力的评测是众多学者研究的重点和热点,也是各级决策者最为关心、最为重要的课题之一。本文根据科技竞争力概念和内涵来确定评测指标体系的构成要素,建立了评测指标体系,并利用主成分分析方法对采集来的数据进行分析,得到最终的评测结果。国际竞争力企业目前和未来在各自的环境中,以比其国内和国外的竞争者更具有吸引力的价格和质量来进行设计生产并销售产品一级提供服务的能力和机会。——1985年世界经济论坛是一个国家(地区)或企业在世界市场上均衡的生产出比其他竞争对手更多财富的能力。——1994年的《国际竞争力报告》一般综合评价过程综合指标确定权重数据处理选择指标体系区域科技竞争力评价三级指标体系将第三级指标混在一起,对混合指标进行主成分分析,利用少数的几个主成分代替第二级指标利用DELPH和AHP方法确定第二级主成分指标和一级指标的权重最后得到每个一级指标的综合值和每个地区科技竞争力的综合值因子分析1.因子分析的基本理论4.因子得分5.因子分析的SPSS实现2.因子分析的数学模型3.公因子的求法2.因子分析的数学模型例题(2005年各地区社会发展数据)ComponentMatrixa.866-.456.788.479.886-.388.920-.353.667.673.261.907人均GDP新增固定资产城镇可支配收入农村纯收入高校数卫生机构数12ComponentExtractionMethod:PrincipalComponentAnalysis.2componentsextracted.a.主成分分析的结果1211456.0866.0ZYZYZX2212479.0788.0ZYZYZX3213388.0886.0ZYZYZX4214353.0920.0ZYZYZX5215673.0667.0ZYZYZX6216907.0261.0ZYZYZXRotatedComponentMatrixa.978.043.438.811.961.112.973.159.236.917-.232.915人均GDP新增固定资产城镇可支配收入农村纯收入高校数卫生机构数12ComponentExtractionMethod:PrincipalComponentAnalysis.RotationMethod:VarimaxwithKaiserNormalization.Rotationconvergedin3iterations.a.因子分析的结果1211043.0978.0FFZX2212811.0438.0FFZX3213112.0961.0FFZX4214159.0973.0FFZX5215917.0236.0FFZX6216915.0232.0FFZX人均GDP城镇收入农村收入新增固定资产高校数卫生机构收入因子1F发展保障因子2F因子分析的基本理论因子分析与主成分分析的共同点通过对相关矩阵的研究将多个变量归结为少数的几个综合变量(因子)因子分析与主成分分析的不同点对主成分难以给出符合实际意义的解释主成分分析仅仅是一般的线性变换需要构造因子模型因子不具线性性因子旋转使变量降维后易解释主成分主成分因子分析因子分析对比图因子分析的数学模型一般形式11111221122112222211221mmmmppppmmXaFaFaFXaFaFaFXaFaFaF矩阵形式111121112212222212mmppppmpmXaaaFXaaaFXaaaF(1)()(1)(1)PpmmpAF可实测的p个指标不可观测的公共因子载荷矩阵特殊因子包括随机误差限制条件1.mp2.3.Cov(,)0F11()1DF21222()pD0)E(,0)E(F因子分析的具体任务Two寻找抽象公因子,通过分析赋予具有实际意义的解释,并给予命名.iFOne{}aij由样本数据估计系数:Three建立公共因子与原始变量之间的关系,从而获得每个样本的公因子得分.因子模型的性质的协方差阵与因子载荷阵之间的关系:因子载荷阵不是唯一的.若是一个正交阵,则仍是一个载荷阵.性质1性质2()AADAA因子载荷阵的可得性正交旋转使新的因子更有意义))((XFA因子模型中各系数以及因子的意义因子载荷的统计意义若因子模型中各个变量都已经标准化,则因子载荷是第i个变量与第j个公共因子的相关系数,它反映了变量依赖于公共因子的程度。ijaijFXaji变量公共度若因子模型中各个变量都已经标准化,则222212()iiiimiDXaaa
本文标题:高级统计学56
链接地址:https://www.777doc.com/doc-6933584 .html