您好,欢迎访问三七文档
主成分分析法一、主成分分析法概述二、主成分分析法的基本原理三、主成分分析法的应用四、主成分分析法的步骤和方法五、主成分分析法的操作流程六、主成分分析法的结果分析七、应用主成分分析法的注意事项八、与因子分析法的区别一、主成分分析法概述每个人都会遇到有很多变量的数据。这些数据的共同特点是变量很多,在如此多的变量之中,有很多是相关的。人们希望能够找出它们的少数“代表”来对它们进行描述。介绍两种把变量维数降低以便于描述、理解和分析的方法:主成分分析(principalcomponentanalysis)和因子分析(factoranalysis)。实际上主成分分析可以说是因子分析的一个特例。定义:主成分分析(PrincipalComponentsAnalysis,PCA)也称为主分量分析,是一种通过降维来简化数据结构的方法,即如何把多个变量(变量)转化为少数几个综合变量(综合变量),而这几个综合变量可以反映原来多个变量的大部分信息。主成分:把相关的变量变为无关的主成分。注意:进行主成分的变量之间必须要有相关性,经过分析后变量之间独立。二、主成分分析法基本原理主成分分析就是设法将原来众多具有一定相关性的变量(如p个变量),重新组合成一组新的相互无关的综合变量来代替原来变量。怎么处理?通常数学上的处理就是将原来p个变量作线性组合作为新的综合变量。如何选择?如果将选取的第一个线性组合即第一个综合变量记为F1,自然希望F1尽可能多的反映原来变量的信息。怎样反映?最经典的方法就是用方差来表达,即var(F1)越大,表示F1包含的信息越多。因此在所有的线性组合中所选取的F1应该是方差最大的,故称之为第一主成分(principalcomponentI)。如果第一主成分不足以代表原来p个变量的信息,再考虑选取F2即第二个线性组合。F2称为第二主成分(principalcomponentII)。F1和F2的关系?1、基于类型的古村落旅游竞争力分析本文以社区参与型古村落为主要研究对象,采用主成分分析法、层次熵法等确定主要的旅游评价指标并获得其贡献指数。三、主成分分析法的应用2、基于主成分分析的新疆与全国旅游产业竞争力评价本文采用主成分分析(PCA)方法,对新疆旅游业的竞争能力与全国其他省、区、直辖市进行比较。对全国31个省、区、直辖市的310个原始数据,根据PCA方法的原理和步骤进行计算机处理,可以得到主成分因子的特征值、贡献率与累积贡献率及因子提取结果。前3个主成分因子的累积贡献率达87.154%,根据累积贡献率大于85%的主成分因子选取原则,选择前3个主成分因子,而且选择的3个主成分因子相互之间不存在相关性。四、主成分分析法的步骤1)数据归一化处理:数据标准化(Z)2)计算相关系数矩阵R:3)计算特征值;特征值越大说明重要程度越大。4)计算主成分贡献率及方差的累计贡献率;5)计算主成分载荷与特征向量:主成分的负荷值大小反映了主成分因子对可测变量的影响程度;载荷值越大说明此变量对主成分的解释越多,及贡献越大。6)写出主成分模型主成分选取的条件:(1)特征值(特征值>1);(2)方差的累计贡献率。(前K个主成分的方差累计贡献率达到了80%或85%,也可以说累计贡献率≥80%或≥85%)(较多)。两个条件满足其一就可以了,究竟以哪个为主依个人情况而定或根据实际情况两个结合使用。如果前K个主成分的累计贡献率达到了85%,则表明取前K个主成分基本包含了全部测量指标所具有的信息,从而达到了变量降维的目的。五、主成分分析法的操作流程KMO检验是在主成份分析前对数据的分析:KMO越接近于1越好,等于相关系数,≥0.5就可以。1、相关系数R:KMO检验六、主成分分析法的结果分析解释的总方差初始特征值提取平方和载入成份合计方差的%累积%合计方差的%累积%13.95732.97432.9743.95732.97432.97422.42420.20353.1772.42420.20353.17731.75414.61967.7961.75414.61967.79641.1789.81477.6101.1789.81477.6105.9648.03485.6446.5734.77890.4227.4373.64594.0668.3192.66296.7299.1341.12097.84810.114.95298.80111.099.82599.62612.045.374100.000提取方法:主成份分析。2、确定主成分解释的总方差初始特征值提取平方和载入成份合计方差的%累积%合计方差的%累积%13.95732.97432.9743.95732.97432.97422.42420.20353.1772.42420.20353.17731.75414.61967.7961.75414.61967.79641.1789.81477.6101.1789.81477.6105.9648.03485.6446.5734.77890.4227.4373.64594.0668.3192.66296.7299.1341.12097.84810.114.95298.80111.099.82599.62612.045.374100.000提取方法:主成份分析。本操作是选择以特征根大于1为标准提取主成分,提取了4个主成分。按照累积方差的观点,应该提取≥80%或≥85%的值,本例题提取5个主成分,其累积方差贡献率为85.644%,应该提取前五个主成分。确定主成分本操作是选择以特征根大于1为标准提取主成分,提取了2个主成分。按照累积方差的观点,应该提取80%或85%的值,本例题提取2个主成分,其累积方差贡献率为94.99%,应该提取2个应该提取前两个主成分。两个条件都满足3、写出主成分模型2、写出主成分模型成份矩阵a成份1234一月.792-.274.186-.007二月-.040.102.715.415三月.143.594-.618-.136四月.720-.127-.158.564五月.275.772.094-.037提取方法:主成份。a.已提取了4个成份。主成分因子载荷矩阵:载荷值越大,说明此变量对主成分的解释越多,及贡献越大;越大越好。前面的表给出的是因子载荷矩阵,主成分系数应该为特征向量,其换算方法为:用主成分载荷矩阵中的数据除以主成分相对应的特征值开平方根便得到两个主成分中每个指标所对应的系数。(1)主成分系数(特征向量)计算iiie第一主成分的特征值(2)写各主成分模型F1=0.50X1+0.40X2-0.02X3+0.07X4+0.36X5+0.14X6F1主要表示X1、X2、X5的信息F2=1.28X1-0.18X2-0.07X3+0.38X4-0.08X5+0.50X6F2主要表示X1、X4、X6F3=2.27X1+0.14X2-0.54X3-0.47X4-0.12X5+0.07X6F3主要表示X1F4=3.69X1-0.01X2+0.38X3-0.13X4+0.52X5-0.03X6F4主要表示X1、X3、X5主成分的综合模型:XwXwXwXwnnF332211两个公式之意:F中X1的综合系数w1=(F1的x1的系数×x1在F1中的方差贡献率+F2的x1的系数×x1在F2中的方差贡献率…Fn)/方差累计贡献率注意:X1、X2在F1、F2中各自所对应的方差贡献率。方差贡献率与方差累计贡献率的区别EaWjkjiji1Ej211主成分赋权法其中,aij描述了因子i在第j个主成分中的因子得分系数,即第i个因子对第j个主成分的贡献,它与该主成分对应方差的贡献率Ej的组合,便是需要确定的第i个环境因子的权重值。XwXwXwXwnnF332211主成分赋权法:计算权重集•进行归一化处理由此即得到权重集:和为1.4、旋转:从下表的因子荷载看,第三个主成分因子在10个指标上的载荷值都不明显,因此很难对第三个主成分因子进行有效定义。旋转的条件:当某个主成分因子的各载荷值大小都不明显,很难对此主成分因子进行有效定义时,采用旋转进一步分析。旋转后的主成分因子载荷矩阵景区满意度旋转前后成分矩阵图对比成份矩阵a成份12景区安全.811.576门票价格.990-.115交通便捷程度.976-.216导游专业解说.895.411游览指引牌.985.161景观解说牌.999-.040景观独特性.979.198娱乐项目.933-.355餐饮.954-.292景区购物.893-.431公共卫生设施.986-.166公共休息设施.970-.220景区卫生状况.993-.009工作人员态度.999.002游客投诉服务.974-.193居民友好程度.971.215景区环境保护.989.134景区整体环境.985.170总体感觉.961.245提取方法:主成份。a.已提取了2个成份。旋转成份矩阵a成份12景区安全.213.972门票价格.810.581交通便捷程度.868.497导游专业解说.386.906游览指引牌.621.781景观解说牌.766.642景观独特性.591.805娱乐项目.929.364餐饮.903.426景区购物.951.282公共卫生设施.842.540公共休息设施.866.489景区卫生状况.741.661工作人员态度.739.673游客投诉服务.851.513居民友好程度.574.811景区环境保护.642.765景区整体环境.614.788总体感觉.546.827提取方法:主成份。旋转法:具有Kaiser标准化的正交旋转法。a.旋转在3次迭代后收敛。选取主成分的个数,急转处是确定主成分的个数处。5、碎石图分析景区满意度碎石图解释的总方差初始特征值提取平方和载入成份合计方差的%累积%合计方差的%累积%117.55992.41792.41717.55992.41792.41721.2916.79499.2111.2916.79499.2113.115.60799.8184.035.182100.00056.468E-163.404E-15100.00063.832E-162.017E-15100.00073.351E-161.764E-15100.00082.595E-161.366E-15100.00091.986E-161.045E-15100.000101.683E-168.860E-16100.000117.026E-173.698E-16100.000122.750E-191.447E-18100.00013-7.503E-17-3.949E-16100.00014-1.291E-16-6.794E-16100.00015-1.742E-16-9.168E-16100.00016-2.417E-16-1.272E-15100.00017-3.333E-16-1.754E-15100.00018-4.489E-16-2.363E-15100.00019-1.373E-15-7.228E-15100.000提取方法:主成份分析。八、与因子分析法的区别1、基本概念主成分分析就是将多项指标转化为少数几项综合指标,用综合指标来解释多变量的方差-协方差结构。综合指标即为主成分。所得出的少数几个主成分,要尽可能多地保留原始变量的信息,且彼此不相关。因子分析是研究如何以最少的信息丢失,将众多原始变量浓缩成少数几个因子变量,以及如何使因子变量具有较强的可解释性的一种多元统计分析方法。因子分析实例:2、基本思想的异同共同点•主成分分析法和因子分析法都是用少数的几个变量(因子)来综合反映原始变量(因子)的主要信息,变量虽然较原始变量少,但所包含的信息量却占原始信息的85%以上,所以即使用少数的几个新变量,可信度也很高,也可以有效地解释问题。并且新的变量彼此间互不相关,消除了多重共线性。这两种分析法得出的新变量,并不是原始变量筛选后剩余的变量。•主成分分析和因子分析都产生了新变量。不同之处•主成分分析中,最终确定的新变
本文标题:主成分分析法
链接地址:https://www.777doc.com/doc-3604777 .html