您好,欢迎访问三七文档
当前位置:首页 > 商业/管理/HR > 经营企划 > 很好的因子分析法讲议和实例
第12章因子分析12.1因子分析的理论与方法12.1.1因子分析的基本思想多元统计分析处理的是多变量问题。由于变量较多,增加了分析问题的复杂性。但在实际问题中,变量之间可能存在一定的相关性,因此,多变量中可能存在信息的重叠。人们自然希望通过克服相关性、重叠性,用较少的变量来代替原来较多的变量,而这种代替可以反映原来多个变量的大部分信息,这实际上是一种“降维”的思想。因子分析(factoranalysis)就是一种降维、简化数据的技术。它通过研究众多变量之间的内部依赖关系,探求观测数据中的基本结构,并用少数几个“抽象”的变量来表示其基本的数据结构。这几个抽象的变量被称作“因子”,能反映原来众多变量的主要信息。原始的变量是可观测的显在变量,而因子一般是不可观测的潜在变量。例如,在商业企业的形象评价中,消费者可以通过一系列指标构成的一个评价指标体系,评价百货商场的各个方面的优劣。但消费者真正关心的只是三个方面:商店的环境、商店的服务和商品的价格。这三个方面除了价格外,商店的环境和服务质量,都是客观存在的、抽象的影响因素,都不便于直接测量,只能通过其它具体指标进行间接反映。因子分析是一种通过显在变量测评潜在变量,通过具体指标测评抽象因子的统计分析方法。又比如,在研究区域社会经济发展中,描述社会与经济现象的指标很多,过多的指标容易导致分析过程复杂化。一个合适的做法就是从这些关系错综复杂的社会经济指标中提取少数几个主要因子,每一个主要因子都能反映相互依赖的社会经济指标间共同作用,抓住这些主要因素就可以帮助我们对复杂的社会经济发展问题进行深入分析、合理解释和正确评价。12.1.2因子分析的数学模型因子分析中的公共因子是不可直接观测但又客观存在的共同影响因素,每一个变量都可以表示成公共因子的线性函数与特殊因子之和,即1122iiiimmXaFaFaFiε=++++L,(1,2,,ip=L)式中的,,称为公共因子,1FL,2FmFiε称为的特殊因子。该模型可用矩阵表示为:iXXAFε=+这里12pXXXX⎡⎤⎢⎥⎢⎥=⎢⎥⎢⎥⎢⎥⎣⎦M,,111212122212mmpppmaaaaaaAaaa⎡⎤⎢⎥⎢⎥=⎢⎥⎢⎥⎢⎥⎣⎦LLLLLLL12mFFFF⎡⎤⎢⎥⎢⎥=⎢⎥⎢⎥⎣⎦M,12pεεεε⎡⎤⎢⎥⎢⎥=⎢⎥⎢⎥⎢⎥⎣⎦M且满足:(1);mp≤(2)(,)0CovFε=,即公共因子与特殊因子是不相关的;(3)101()01FmDDFI⎡⎤⎢⎥⎢===⎢⎥⎢⎥⎣⎦O⎥,即各个公共因子不相关且方差为1;(4)212220()0pDDεσσεσ⎡⎤⎢⎥⎢==⎢⎥⎢⎥⎢⎥⎣⎦O⎥,即各个特殊因子不相关,方差不要求相等。模型中的矩阵A称为因子载荷矩阵,称为因子“载荷”,是第i个变量在第ijaj个因子上的负荷,如果把变量iX看成维空间中的一个点,则表示它在坐标轴上的投影。mijajF12.1.3因子载荷阵的求解因子载荷阵的求解方法有很多,这里仅介绍昀为常用的主成分分析法。为了节省篇幅,不加证明地给出使用主成分分析法求解因子载荷阵的一般步骤:1.计算原始数据的协差阵Σ。2.计算协差阵Σ的特征根为,相应的单位特征向量为。10pλλ≥≥≥L12,,,pTTTL3.利用Σ的特征根和特征向量计算因子载荷阵:1122(,,,ppATTTλλλ=L)由于因子分析的目的是减少变量个数,因此,因子数目m应小于原始变量个数p。所以在实际应用中,仅提取前个特征根和对应的特征向量,构成仅包含个因子的因子载荷阵:mm1122(,,,mmATTTλλλ=L)i12.1.4因子载荷阵的统计意义1.因子载荷对于因子模型1122iiiijjimmXaFaFaFaFε=++++++LL1,2,,ip=L我们可以得到,iX与的协方差为:jF11(,)(,)(,)(,mijikkijkmikkjijkijCovXFCovaFFCovaFFCovFaεε===+=+=∑∑)如果对iX作了标准化处理,iX的标准差为1,且的标准差为1,因此jF,(,)(,)()()ijijXFijijijCovXFrCovDXDF==XFa=那么,从上面的分析,我们知道对于标准化后的iX,是ijaiX与的相关系数,它一方面表示jFiX对的依赖程度,绝对值越大,密切程度越高;另一方面也反映了变量jFiX对公共因子的相对重要性。了解这一点对我们理解抽象的因子含义,即因子命名,有非常重要的作用。jF2.变量共同度设因子载荷矩阵为A,称第i行元素的平方和2211,2,,miijjhai===∑Lp为变量iX的共同度。由因子模型,知22211222221222()()()()()()iiiimmiiiimiiiDXaDFaDFaDFDaaaVarhεεσ=++++=++++=+LL上式说明,变量iX的方差由两部分组成:第一部分为共同度,它描述了全部公共因子对变量2ihiX的总方差所作的贡献,反映了变量iX的方差中能够被全体因子解释的部分。第二部分为特殊因子iε对变量iX的方差的贡献,也就是变量iX的方差中没有被全体因子解释的部分。变量共同度越高,说明该因子分析模型的解释能力越高。3.因子的方差贡献设因子载荷矩阵为A,称第j列元素的平方和2211,2,,pjijigaj===∑Lm为因子对jFX的贡献,即表示同一因子对各变量所提供的方差贡献之总和,它是衡2jgjF量每一个因子相对重要性的一个尺度。由12.1.3节因子载荷阵的表达式:1122(,,,mmATTTλλλ=L)可知,A中第j列元素的平方和为()()jjjjjjjjTTTTλλλλ′′==j(是单位特征向量),即有jT221pjijiagλ===∑这说明,第j个公因子的方差贡献就等于样本协差阵的第2jgj大特征根。在实际应用中,有两种常用的确定因子提取个数m的方法。一是仅提取方差贡献(2jgjλ)大于1的因子;而是利用因子的累积方差贡献率11pmjjjjλλ==∑∑来确定公因子提取的个数,也就是寻找一个使得11pmjjjjλλ==∑∑达到较大百分比的自然数。m12.1.5因子命名与因子旋转因子分析的目标之一就是要对所提取的抽象因子的实际含义进行合理解释,即对因子进行命名。有时直接根据特征根、特征向量求得的因子载荷阵难以看出公共因子的含义。例如,可能同一个变量在多个公共因子上都有较大的载荷,也可能多个变量在同一个公共因子上都有较大载荷,说明该因子对多个变量都有较明显的影响作用。这种因子模型反而很难对因子的实际背景进行合理的解释。这时需要通过因子旋转的方法,使每个变量仅在一个公共因子上有较大的载荷,而在其余的公共因子上的载荷比较小,至多达到中等大小。这时对于每个公共因子而言(即载荷矩阵的每一列),它在部分变量上的载荷较大,在其它变量上的载荷较小,使同一列上的载荷尽可能地向靠近1和靠近0两极分离。这时就突出了每个公共因子和其载荷较大的那些变量的联系,该公共因子的含义也就能通过这些载荷较大的变量做出合理的说明。因子旋转方法有正交旋转和斜交旋转两类,这里我们重点介绍正交旋转。对公共因子作正交旋转就是对载荷矩阵作一正交变换,右乘正交矩阵AΓ,使得旋转后的因子载荷阵有更鲜明的实际意义。旋转以后的公共因子向量为BA=Γ*FF′=Γ,它的各个分量也是互不相关的公共因子。根据正交矩阵**12,,FF*,mFLΓ的不同选取方式,将构造出不同的正交旋转的方法。实践中常用的方法是昀大方差旋转法,其原理是使得旋转后因子载荷阵B的每一列元素的方差之和达到昀大,从而实现使同一列上的载荷尽可能地向靠近1和靠近0两极分离的目的。值得说明的是,旋转后的因子载荷阵B与旋转前的因子载荷阵相比,各因子的方差贡献发生了变化,已经不再等于样本协差阵的第A2jgj大特征根,但提取出的全部个因子m的总方差贡献率211pmjjjg==∑∑2jg却不会改变,仍然等于11pmjjjjλλ==∑∑。另外,因子旋转在改变因子载荷阵的同时,也改变了因子得分。12.1.6因子得分因子得分是因子分析的昀终体现。当因子载荷阵确定以后,便可以计算各因子在每个样本上的具体数值,称为因子得分。得到了因子得分之后,就可以像主成分分析那样,用因子得分来代替原始变量,从而达到降维的效果。在因子分析模型XAFε=+中,如果不考虑特殊因子的影响,当且mp=A可逆时,我们可以非常方便地从每个样品的指标取值X计算出其在因子上的相应取值:,即该样品在因子上的“得分”情况,简称为该样品的因子得分。F1FAX−=F但是因子分析模型在实际应用中要求mp,因此,不能精确计算出因子的得分情况,只能对因子得分进行估计。估计因子得分的方法也有很多,常用的方法包括回归法(Regression)、巴特莱特法(Bartlett)、安德森-鲁宾法(Anderson-Rubin)等。可以证明,如果使用回归法,则因子得分可以由下面的式子给出:1FAX−′=Σ其中,为样本协差阵。称Σmp×的矩阵1WA−′=Σ为因子得分系数矩阵。应该注意,如果因子载荷阵经过了旋转,则上式中的因子载荷阵应该是旋转后的因子载荷阵。A12.1.7因子分析的出发点从前面的介绍我们知道,因子分析的一切计算都是从样本协差阵Σ出发的,其结果受变量单位的影响。不同的变量往往有不同的单位,对同一变量单位的改变会产生不同的因子分析结果。为使因子分析能够均等地对待每一个原始变量,消除由于单位的不同可能带来的影响,我们常常先将各原始变量作标准化处理,即令*()()iiiXEXXDXi−=1,,ip=L可以证明,经过标准化的数据***1(,,)pXXX′=L的协方差矩阵就是X的相关系数矩阵R。也就是说,如果因子分析的一切计算都直接从样本相关系数矩阵R而不是协差阵出发的话,就等价于先对数据进行标准化,然后再从协差阵出发进行因子分析。Σ12.2因子分析的实例本例中采用的是2003年沪、深两市证券交易所48家上市公司的13个财务指标数据。13个财务指标分别为:流动比率(X1)、速动比率(X2)、总资产周转率(X3)、存货周转率(X4)、营运资本(X5)、每股收益(X6)、净利润增长率(X7)、每股收益增长率(X8)、主营业务毛利率(X9)、主营业务利润率(X10)、成本费用利润率(X11)、净资产收益率(X12)、总资产利润率(X13)。这些指标有些之间具有很强的相关性,如果利用所有的13个财务指标对这50家公司进行财务分析,难免出现信息的重叠,而利用因子分析可以解决这个问题。12.2.1SPSS操作步骤1.选择菜单项Analyze→DataReduction→Factor,打开FactorAnalysis对话框,如图12-1。将原始变量x1—x13移入Variables列表框框中。如果不想使用全部的样本进行分析,且数据文件中存在一个选择变量的话,将该选择变量移入SelectionVariable框中,并单击右边的Value按钮,在跳出的窗口中输入一个筛选值,这样,只有选择变量的值等于输入的筛选值的观测才能参与因子分析。图12-1FactorAnalysis对话框2.点击Descriptives按钮,打开Descriptives子对话框,如图12-2。该对话框共有两个选项栏,用于设置输出的结果。Statistics选项栏中,Univariatedescriptives表示输出原始变量的基本描述统计量;Initialsolution表示输出因子分析的初始解,包括样本协差阵(相关系数矩阵)的全部p个特征根、方差贡献率以及累积贡献率。这里选择Initialsolution复选项。CorrelationMatrix选项栏用于指定输出衡量原始变量之间相关性的统计量和统计表。如前所述,因子分析的目的是从众多的原始变量中综合出少数具有代表性的因子,这里就有一个潜在的前提,即原始变量之间应该具有较强的相关性,否则因子分析就失去了必要性。CorrelationMatrix选项栏中各选项的含义如下:Coefficients:给出原始变量之间的简单相关系数矩阵;Significancelevels:给出每个相关系数的显著性检验,检
本文标题:很好的因子分析法讲议和实例
链接地址:https://www.777doc.com/doc-6040098 .html