您好,欢迎访问三七文档
当前位置:首页 > 商业/管理/HR > 资本运营 > 主成分分析法及其在SPSS中的操作
一、主成分分析基本原理概念:主成分分析是把原来多个变量划为少数几个综合指标的一种统计分析方法。从数学角度来看,这是一种降维处理技术。思路:一个研究对象,往往是多要素的复杂系统。变量太多无疑会增加分析问题的难度和复杂性,利用原变量之间的相关关系,用较少的新变量代替原来较多的变量,并使这些少数变量尽可能多的保留原来较多的变量所反应的信息,这样问题就简单化了。原理:假定有n个样本,每个样本共有p个变量,构成一个n×p阶的数据矩阵,记原变量指标为x1,x2,…,xp,设它们降维处理后的综合指标,即新变量为z1,z2,z3,…,zm(m≤p),则系数lij的确定原则:①zi与zj(i≠j;i,j=1,2,…,m)相互无关;②z1是x1,x2,…,xP的一切线性组合中方差最大者,z2是与z1不相关的x1,x2,…,xP的所有线性组合中方差最大者;zm是与z1,z2,……,zm-1都不相关的x1,x2,…xP,的所有线性组合中方差最大者。新变量指标z1,z2,…,zm分别称为原变量指标x1,x2,…,xP的第1,第2,…,第m主成分。从以上的分析可以看出,主成分分析的实质就是确定原来变量xj(j=1,2,…,p)在诸主成分zi(i=1,2,…,m)上的荷载lij(i=1,2,…,m;j=1,2,…,p)。npnnppxxxxxxxxxX212222111211pmpmmmppppxlxlxlzxlxlxlzxlxlxlz22112222121212121111............从数学上可以证明,它们分别是相关矩阵m个较大的特征值所对应的特征向量。二、主成分分析的计算步骤1、计算相关系数矩阵rij(i,j=1,2,…,p)为原变量xi与xj的相关系数,rij=rji,其计算公式为2、计算特征值与特征向量解特征方程,常用雅可比法(Jacobi)求出特征值,并使其按大小顺序排列;分别求出对应于特征值的特征向量,要求=1,即其中表示向量的第j个分量。3、计算主成分贡献率及累计贡献率贡献率:累计贡献率:一般取累计贡献率达85%-95%的特征值,所对应的第1、第2、…、第m(m≤p)个主成分。4、计算主成分载荷5、各主成分得分pppppprrrrrrrrrR212222111211nknkjkjikinkjkjikiijxxxxxxxxr11221)()())((0RI021pi),,2,1(pieiLie112pjijeijeie),,2,1(1pipkkiL),,2,1(11pipkkikkLm,,,21L),,2,1,(),(pjiexzplijijiijL三、主成分分析法在SPSS中的操作1、指标数据选取、收集与录入(表1)2、Analyze→DataReduction→FactorAnalysis,弹出FactorAnalysis对话框:3、把指标数据选入Variables框,Descriptives:CorrelationMatrix框组中选中Coefficients,然后点击Continue,返回FactorAnalysis对话框,单击OK。注意:SPSS在调用FactorAnalyze过程进行分析时,SPSS会自动对原始数据进行标nmnnmmzzzzzzzzzZ212222111211准化处理,所以在得到计算结果后的变量都是指经过标准化处理后的变量,但SPSS并不直接给出标准化后的数据,如需要得到标准化数据,则需调用Descriptives过程进行计算。从表3可知GDP与工业增加值,第三产业增加值、固定资产投资、基本建设投资、社会消费品零售总额、地方财政收入这几个指标存在着极其显著的关系,与海关出口总额存在着显著关系。可见许多变量之间直接的相关性比较强,证明他们存在信息上的重叠。主成分个数提取原则为主成分对应的特征值大于1的前m个主成分。特征值在某种程度上可以被看成是表示主成分影响力度大小的指标,如果特征值小于1,说明该主成分的解释力度还不如直接引入一个原变量的平均解释力度大,因此一般可以用特征值大于1作为纳入标准。通过表4(方差分解主成分提取分析)可知,提取2个主成分,即m=2,从表5(初始因子载荷矩阵)可知GDP、工业增加值、第三产业增加值、固定资产投资、基本建设投资、社会消费品零售总额、海关出口总额、地方财政收入在第一主成分上有较高载荷,说明第一主成分基本反映了这些指标的信息;人均GDP和农业增加值指标在第二主成分上有较高载荷,说明第二主成分基本反映了人均GDP和农业增加值两个指标的信息。所以提取两个主成分是可以基本反映全部指标的信息,所以决定用两个新变量来代替原来的十个变量。但这两个新变量的表达还不能从输出窗口中直接得到,因为“ComponentMatrix”是指初始因子载荷矩阵,每一个载荷量表示主成分与对应变量的相关系数。用表5(主成分载荷矩阵)中的数据除以主成分相对应的特征值开平方根便得到两个主成分中每个指标所对应的系数。将初始因子载荷矩阵中的两列数据输入(可用复制粘贴的方法)到数据编辑窗口(为变量B1、B2),然后利用“Transform→ComputeVariable”,在ComputeVariable对话框中输入“A1=B1/SQR(7.22)”[注:第二主成分SQR后的括号中填1.235,即可得到特征向量A1(见表6)。同理,可得到特征向量A2。将得到的特征向量与标准化后的数据相乘,然后就可以得出主成分表达式[注:因本例只是为了说明如何在SPSS进行主成分分析,故在此不对提取的主成分进行命名,有兴趣的读者可自行命名。标准化:通过Analyze→DescriptiveStatistics→Descriptives对话框来实现:弹出Descriptives对话框后,把X1~X10选入Variables框,在Savestandardizedvaluesasvariables前的方框打上钩,点击“OK”,经标准化的数据会自动填入数据窗口中,并以Z开头命名。以每个主成分所对应的特征值占所提取主成分总的特征值之和的比例作为权重计算主成分综合模型,即用第一主成分F1中每个指标所对应的系数乘上第一主成分F1所对应的贡献率再除以所提取两个主成分的两个贡献率之和,然后加上第二主成分F2中每个指标所对应的系数乘上第二主成分F2所对应的贡献率再除以所提取两个主成分的两个贡献率之和,即可得到综合得分模型:根据主成分综合模型即可计算综合主成分值,并对其按综合主成分值进行排序,即可对各地区进行综合评价比较,结果见表8。具体检验还需进一步探讨与学习
本文标题:主成分分析法及其在SPSS中的操作
链接地址:https://www.777doc.com/doc-4259270 .html