您好,欢迎访问三七文档
当前位置:首页 > 商业/管理/HR > 信息化管理 > SPSS主成分分析与因子分析.ppt
第八章主成分分析与因子分析PrincipleComponentAnalysis&FactorAnalysis§8-1概述在许多研究中,为了全面系统地分析问题,都尽可能完整地搜集信息,对每个观测对象往往需测量很多指标(变量),人们自然希望用较少的新变量代替原来较多的旧变量,而这些新变量应尽可能地反映旧变量的信息.主成分分析与因子分析正是满足这一要求的处理多变量问题的方法.由于它们能浓缩信息,使指标降维,简化指标的结构,使分析问题简单、直观、有效,故被广泛应用于医学、心理学、经济学等领域.参考文献1、综合评价中如何运用主成分分析。作者:朱峰《统计教育》2005年第10期P45~472、对因子分析方法及其过程中几个问题的探讨。作者:马晓君《统计教育》2005年第8期P61~643、基于SPSS的主成分分析与因子分析的辨析。作者:唐功爽《统计教育》2007年第2期P12~144、主成分分析法在证券市场个股评析中的应用作者:江东明《数理统计与管理》2001年第2期P28~315、因子分析法在企业综合经济效益评价中的应用作者:王增民《数理统计与管理》2002年第1期P10~13参考文献6、甘肃省区域综合经济实力变动分析作者:魏奋子《开发研究》2003年第3期P43~457、江苏省区域经济实力的综合评价与实证分析作者:门可佩《江苏统计》2001年第12期P15~178、数理统计方法在河南经济发展水平和分区研究中的应用作者:刘钦普《数理统计与管理》2002年第3期P10~158、科技实力国际比较的因子分析作者:徐小阳《统计与决策》2003年第1期P15~17§8.1.1主成分分析的几何意义1.1在P维总体中抽取了N个样品,可以得到在P维空间中的N个点,来研究这N个点之间的关系.首先以简单的低维空间说明.以二维空间,即平面的二个变量P=2为例:123456X1123456X224681012样品指标直线方程X2=2X10246810121402468系列1X1X2525123456Y1样品变量53545556Y1将X1和X2轴同时逆时针旋转cossinsincos212211XXYXXY0cossin)sin(cos1cos)sin(1sincos2222X1X2Y1Y2........................XUXXYY2121cossinsincos§8.1.2主成分分析的基本概念主成分分析(PrincipleComponentAnalysis)也称主分量分析,是一种将多个指标化为少数几个综合指标的统计分析方法。基本思想:描述经济现象需要用很多指标(也称变量)来刻划,但是指标之间往往有一定的相关性,因而所得的统计数据在一定程度上反映的信息有重叠。主成分分析可将相关的指标化成一些不相关的指标,避免了信息重叠带来的虚假性,而且这些主成分可以尽可能地反映原来变量的绝大部分信息。2.主成分分析的一般数学模型ppppppppppXeXeXeYXeXeXeYXeXeXeY22112222121212121111并且满足:),,2,1(122221pieeeipii其中eij由下列原则决定:1.任一两个主成分之间都不相关:Yi与Yj(i≠j;i,j=1,2,…,p)2.Y1是X1、X2、…、Xp的一切线性组合中方差最大的;Y2是与Y1不相关的X1、X2、…、Xp的一切线性组合中方差最大的;(Y2的方差小于Y1的方差);Yp是与Y1、Y2、…、Yp-1都不相关的X1、X2、…、Xp的一切线性组合中方差最大的(Yp的方差小于Y1、Y2、…、Yp-1的方差)。这样确定的综合指标就称为原变量的第一主成分,第二主成分,第p主成分。3.主成分的求解关键是求系数,而其正是观测变量相关矩阵的单位特征向量.因此通过求解观测变量相关矩阵的特征方程,得到P个特征根和P个单位特征向量,把P个特征根按从大到小的顺序排列,记作它们分别代表P个主成分所解释的观测变量的方差.相应的P个单位特征向量就是主成分的系数,,,2,1),,(21pieeeipii),,2,1(pii),,2,1()(piYVarii,,,2,1),,(21pieeeipii主成分模型中的各统计量的意义(1)主成分Yi的方差贡献率主成分分析是把P个原始变量X1、X2、…、Xp总方差分解成P个不相关变量Y1、Y2、…Yp的方差之和,而因此描述了第i个主成分反映的信息占总信息的份额,我们称它为第i主成分Yi的方差贡献率。第一主成分的方差贡献率最大,表明Y1综合原始变量X1、X2、…、Xp所含信息的能力最强,而Y2、…Yp的综合能力依次减弱。pjji1)(1piiXVar)(1piiYVar),,2,1()(piYVarii主成分模型中的各统计量的意义(2)前k个主成分Yk(i=1,2,…,k)的对原变量的贡献率,称为Y1、Y2、…、Yk的累计方差贡献率。它表明前K个主成分Y1、Y2、…、Yk综合提供X1、X2、…、Xp中信息的能力。实际应用中,通常选取KP,使前K个主成分的方差贡献率达到较高的比例(85%以上).这样用前K个主成分Y1、Y2、…、Yk,代替原始变量X1、X2、…、Xp,不仅减少了变量的个数,便于对实际问题的研究,而且对于原始变量中的信息损失减少。pjjkjj11(3)因子载荷量pikerkikXYik,,2,1,,前K个主成分Yk与原变量Xi的相关系数3.主成分分析的步骤(1)对原P个变量的数据标准化(2)求观测变量的相关矩阵(3)求相关矩阵的特征根和单位特征向量(4)确定主成分,结合专业知识给各主成分所蕴藏的信息给予恰当的解释,并利用它们来判断样品的特性.jjijijXXXpnpnnpprrrrrrrrr000000000000212122221112115.主成分个数的确定主成分分析的目的是为了减少变量的个数,以便对实际问题的研究,而且对于原始变量中的信息损失很少,故一般不用p个主成分,而用Kp个主成分。K的选取要看前K个主成分累计方差贡献率达到85%以上。§7.1.2因子分析(FactorAnalysis)因子分析(FactorAnalysis)是主成分分析的推广,它也是一种把多个相关变量(指标)化为少数几个不相关变量——因子的统计分析方法。在许多实际问题中,我们经常用多个指标(变量)来描述某一现象,由于这些指标之间往往具有一定的相关性,即很多指标反映的信息有重叠,并且指标太多给分析问题带来了不方便,这时我们总希望能用少数几个不相关指标(变量)来代替原来的指标。与主成分分析方法一样,因子分析也给我们提供了解决这个问题的另一种方法。例如,某市场调查公司为了帮助快餐店了解其市场竞争能力进行消费者调查,通过定性研究设计了30项有关快餐店及其产品和服务的调查项目。这30个指标对于我们评价快餐店市场竟争能力很不方便。事实上这30个指标可能反映了快餐的质量、价格、就餐环境和服务四个基本方面,通过因子分析我们能找出反映数据本质特征的这四个因子,并分析原来30个指标和这四个因子之间的关系,通过这四个因子能较方便地评价快餐店的市场竞争能力。一、因子分析模型设p个可观测变量X1、X2、…、XP可表示为:称上式为因子分析模型。其中F1、F2、…、Fm称为公因子,称为特殊因子,他们都是不可观测的随机变量。pmpmpppmmmmFaFaFaXFaFaFaXFaFaFaX2211222221212112121111i正交因子模型满足的四个假定条件:22221212121222211121121000000000000)(100000000100001)()4(0),()3(0)(0)()2()1(::piiiiiimmpmppmmDFDFCOVEFEpmFFFaaaaaaaaaxxx该模型须满足用矩阵写出模型解释因子分析模型公因子F1、F2、…、Fm出现在每一个原始变量Xi(i=1,2,…,p)的表达式中,可理解为原始变量共同具有的公共因素;每个公因子Fj(j=1,2,…,m)至少对两个原始变量有作用,否则它将归入特殊因子。每个特殊因子仅仅出现在与之相应的第i个原始变量Xi的表达式中,它只对这个原始变量有作用。因子分析模型假设p个特殊因子之间是彼此独立的,特殊因子和公因子之间也是彼此独立的。在因子分析模型中,每一个观测变量由m个公因子和一个特殊因子的线性组合来表示,我们感兴趣的只是这些能够代表较多信息的公因子。公因子的个数最多可以等于观测变量数。因为在求因子解时,总是使第一个公因子代表了所有变量中最多的信息,随后的公因子代表性逐步减少,因此通常忽略掉最后几个公因子。所以,在因子分析模型中,公因子的个数,往往远远小于观测变量的个数。为什么公因子的个数远远小于变量个数?二、几个重要的概念1.因子载荷在因子分析模型中,aij称为因子载荷,它反应了第i个原始变量Xi在第j个公因子Fj上的相对重要性。可以证明原始变量Xi与公因子Fj之间的相关系数等于aij,即aij的绝对值越大,表示原始变量Xi与公因子Fj之间关系越密切。pikearkikijXYik,,2,1,,因子载荷矩阵由所有因子载荷构成的矩阵称为因子载荷矩阵,记作A。pmppmmaaaaaaaaaA2122221112112.变量共同度变量共同度也称公因子方差。原始变量Xi的方差由两部分组成,hi2+=1第一部分由公因子决定的方差即公因子方差hi2公因子方差记作hi2,用公式表示为:hi2=ai12+ai22+…+aim2(i=1,2,…,p)第二部分由特殊因子决定的方差即特殊因子方差公因子方差表示了原始变量方差中能被公因子所解释的部分,公因子方差越大,变量能被公因子说明的程度越高。若公因子方差接近于1,这说明该变量的几乎全部原始信息都被所选取的公因子说明了。2i2i2i进一步解释pmppmmaaaaaaaaaA212222111211(1)每个元素表明每个变量对公因子的依赖程度,解释公因子要根据每个公因子系数大小情况(2)变量共同度:载荷矩阵行元素的平方和.表示的是所有公因子对Xi的方差贡献,特殊因子方差解释不足部分(3)载荷矩阵列元素的平方和:表示某一公因子对所有变量的方差贡献.3.公因子Fj的方差贡献(列)公因子Fj的方差贡献记作gj2,用公式表示为:gj2=a1j2+a2j2+…+apj2(j=1,2,…,p)公因子Fj的方差贡献gj2,是公因子Fj对诸原始变量所提供方差贡献的总和。它是衡量公因子相对重要性的指标,它等于公因子Fj所对应的特征值,即jpiijjag122所有公因子的方差总贡献在实际问题中常用下列相对指标:每个公因子Fj的方差贡献率为:前k个公因子的累积方差贡献率为:根据前k个公因子的累积方差贡献率的大小达到一定的比例时,来决定选取多少个公因子。pjjpjjg112pjjjpjjjgg12122pjjkjjpjjkjjgg111212第二节求因子模型及因子得分一、求解初始因子要求因子模型,关键是求出因子载荷矩阵A。对A的估计方法有很多,如主成分法(PrincipalComponents)主轴因子法(Principalaxisfactoring)最大似然法(Maximu
本文标题:SPSS主成分分析与因子分析.ppt
链接地址:https://www.777doc.com/doc-5791509 .html