您好,欢迎访问三七文档
当前位置:首页 > 金融/证券 > 综合/其它 > 多元统计分析人大何晓群第六章.
2020/1/3中国人民大学六西格玛质量管理研究中心1多元统计分析何晓群中国人民大学出版社2020/1/3中国人民大学六西格玛质量管理研究中心2第六章因子分分析目录上页下页返回结束•§6.1因子分析的基本理论•§6.2因子载荷的求解•§6.3因子分析的步骤与逻辑框图•§6.4因子分析的上机实现2020/1/3中国人民大学六西格玛质量管理研究中心3第六章因子分分析目录上页下页返回结束因子分析(factoranalysis)模型是主成分分析的推广。它也是利用降维的思想,由研究原始变量相关矩阵内部的依赖关系出发,把一些具有错综复杂关系的变量归结为少数几个综合因子的一种多变量统计分析方法。相对于主成分分析,因子分析更倾向于描述原始变量之间的相关关系;因此,因子分析的出发点是原始变量的相关矩阵。因子分析的思想始于1904年CharlesSpearman对学生考试成绩的研究。近年来,随着电子计算机的高速发展,人们将因子分析的理论成功地应用于心理学、医学、气象、地质、经济学等各个领域,也使得因子分析的理论和方法更加丰富。本章主要介绍因子分析的基本理论及方法,运用因子分析方法分析实际问题的主要步骤及因子分析的上机实现等内容。2020/1/3中国人民大学六西格玛质量管理研究中心4目录上页下页返回结束§6.1因子分析的基本理论§6.1.1因子分析的基本思想§6.1.2因子分析的基本理论及模型因子分析的基本思想是根据相关性大小把原始变量分组,使得同组内的变量之间相关性较高,而不同组的变量间的相关性则较低。每组变量代表一个基本结构,并用一个不可观测的综合变量表示,这个基本结构就称为公共因子。对于所研究的某一具体问题,原始变量就可以分解成两部分之和的形式,一部分是少数几个不可测的所谓公共因子的线性函数,另一部分是与公共因子无关的特殊因子。在经济统计中,描述一种经济现象的指标可以有很多,比如要反映物价的变动情况,对各种商品的价格做全面调查固然可以达到目的,但这样做显然耗时耗力,为实际工作者所不取。实际上,某一类商品中很多商品的价格之间存在明显的相关性或相互依赖性,只要选择几种主要商品的价格或进而对这几种主要商品的价格进行综合,得到某一种假想的“综合商品”的价格,就足以反映某一类物价的变动情况,这里,“综合商品”的价格就是提取出来的因子。2020/1/3中国人民大学六西格玛质量管理研究中心5目录上页下页返回结束§6.1.1因子分析的基本思想2020/1/3中国人民大学六西格玛质量管理研究中心6目录上页下页返回结束§6.1.1因子分析的基本思想这样,对各类商品物价或仅对主要类别商品的物价进行类似分析然后加以综合,就可以反映出物价的整体变动情况。这一过程也就是从一些有错综复杂关系的经济现象中找出少数几个主要因子,每一个主要因子就代表经济变量间相互依赖的一种经济作用。抓住这些主要因子就可以帮助我们对复杂的经济问题进行分析和解释。因子分析还可用于对变量或样品的分类处理,我们在得出因子的表达式之后,就可以把原始变量的数据代入表达式得出因子得分值,根据因子得分在因子所构成的空间中把变量或样品点画出来,形象直观地达到分类的目的。因子分析不仅仅可以用来研究变量之间的相关关系,还可以用来研究样品之间的相关关系,通常将前者称之为R型因子分析,后者称之为Q型因子分析。我们下面着重介绍型因子分析。2020/1/3中国人民大学六西格玛质量管理研究中心7目录上页下页返回结束§6.1.2因子分析的基本理论及模型(一)CharlesSpearman提出因子分析时用到的例子为了对因子分析的基本理论有一个完整的认识,我们先给出CharlesSpearman1904年用到的例子。在该例中Spearman研究了33名学生在古典语(C)、法语(F)、英语(E)、数学(M)、判别(D)和音乐(Mu)六门考试成绩之间的相关性并得到如下相关阵:2020/1/3中国人民大学六西格玛质量管理研究中心8目录上页下页返回结束§6.1.2因子分析的基本理论及模型式中,为第门科目标准化后的考试成绩,均值为0,方差为1。为公共因子,对各科考试成绩均有影响,是均值为0,方差为1。为仅对第门科目考试成绩有影响的特殊因子,与相互独立。也就是说,每一门科目的考试成绩都可以看作是由一个公共因子(可以认为是一般智力)与一个特殊因子的和。Spearman注意到上面相关阵中一个有趣的规律,这就是如果不考虑对角元素的话,任意两列的元素大致成比例,对C列和E列有:2.151.063.054.066.064.070.067.083.0于是Spearman指出每一科目的考试成绩都遵从以下形式:iiieFaX(6.1)iFieiFieiX2020/1/3中国人民大学六西格玛质量管理研究中心9目录上页下页返回结束§6.1.2因子分析的基本理论及模型(6.2)式与无关,也正与在相关矩阵中所观察到的比例关系相一致。在满足以上假定的条件下,就有:jijijjiijiaaFaaeFaeFaEXXvar))((),cov(于是,有kjkijiaaXXXX),cov(),cov((6.2)i除此之外,还可以得到如下有关方差的关系式:iX)var()var()var()var(iiiiieFaeFaX)var()var(2iieFa)var(2iiea2020/1/3中国人民大学六西格玛质量管理研究中心10目录上页下页返回结束§6.1.2因子分析的基本理论及模型因此,常数的意义就在于其平方表示了公共因子解释的方差的比例,因此被称之为因子载荷,而被称作共同度。iaFiX2ia对Spearman的例子进行推广,假定每一门科目的考试成绩都受到个公共因子的影响及一个特殊因子的影响,于是(6.1)就变成了如下因子分析模型的一般形式:mimimiiieFaFaFaX2211(6.4)因为是一个常数,与相互独立且与的方差均被假定为1。于是有iaFie)var(12iiea(6.3)FiX2020/1/3中国人民大学六西格玛质量管理研究中心11目录上页下页返回结束§6.1.2因子分析的基本理论及模型式中,为标准化后的第门科目的考试成绩,均值为0,方差为1。是彼此独立的公共因子,都满足均值为0,方差为1。为特殊因子,与每一个公共因子均不相关且均值为0。则为对第门科目考试成绩的因子载荷。对该模型,有:iXimFFF,,,21ieimiiaaa,,,21i1)var()var(22221iimiiieaaaX(6.5)式中,表示公共因子解释方差的比例,称为的共同度,相对的可称为的特殊度或剩余方差,表示的方差中与公共因子无关的部分。因为共同度不会大于1,因此,。由模型(6.4)还可以很容易地得到如下与相关系数的关系式:22221imiiaaaiXiX)var(ieiXiX11ijaiXjXjmimjijiijaaaaaar2211(6.6)所以当与在某一公共因子上的载荷均较大时,也就表明了与的相关性较强。iXjXiXjX2020/1/3中国人民大学六西格玛质量管理研究中心12目录上页下页返回结束§6.1.2因子分析的基本理论及模型(二)一般因子分析模型下面我们给出更为一般的因子分析模型:设有个样品,每个样品观测个指标,这个指标之间有较强的相关性(要求个指标相关性较强的理由是很明确的,只有相关性较强才能从原始变量中提取出“公共”因子)。为了便于研究,并消除由于观测量纲的差异及数量级不同所造成的影响,将样本观测数据进行标准化处理,使标准化后的变量均值为0,方差为1。为方便把原始变量及标准化后的变量向量均用表示,用表示标准化的公共因子。nppXmFFF,,,21)(pm2020/1/3中国人民大学六西格玛质量管理研究中心13目录上页下页返回结束§6.1.2因子分析的基本理论及模型(2)()是不可观测的变量,其均值向量,协方差矩阵,即向量的各分量是相互独立的;如果:(1)是可观测随机向量,且均值向量,协方差矩阵,且协方差矩阵与相关阵相等;)',,,(21pxXXX0X)(EΣX)cov(ΣR)',,,(21mFFFFpm0F)(EIF)cov(F(3)与相互独立,且,的协方差阵是对角方阵)',,,(21pεF0ε)(EεεΣ222221100Σ)εcov(pp2020/1/3中国人民大学六西格玛质量管理研究中心14目录上页下页返回结束§6.1.2因子分析的基本理论及模型即的各分量之间也是相互独立的。则模型pmpmpppmmmmFaFaFaXFaFaFaXFaFaFaX2211222221212112121111(6.7)称为因子模型,模型(6.7)式的矩阵形式为:εAFX(6.8)其中pmppmmaaaaaaaaaA2122221112112020/1/3中国人民大学六西格玛质量管理研究中心15目录上页下页返回结束§6.1.2因子分析的基本理论及模型由模型(6.7)及其假设前提知,公共因子相互独立且不可测,是在原始变量的表达式中都出现的因子。公共因子的含义,必须结合实际问题的具体意义确定。叫做特殊因子,是向量的分量()所特有的因子。各特殊因子之间以及特殊因子与所有公共因子之间也都是相互独立的。矩阵中的元素称为因子载荷,的绝对值大,表明与的相依程度越大,或称公共因子对于的载荷量越大,进行因子分析的目的之一,就是要求出各个因子载荷的值。mFFF,,,21p,,,21XiXpi,,2,1Aijaija)1|(|ijaiXjFjFiX2020/1/3中国人民大学六西格玛质量管理研究中心16目录上页下页返回结束§6.1.2因子分析的基本理论及模型经过后面的分析我们会看到,因子载荷的概念与上一章主成分分析中的因子负荷量相对等,实际上,由于因子分析与主成分分析非常类似,在模型(6.7)式中,若把看作的综合作用,则除了此处的因子为不可测变量这一区别,因子载荷与主成分分析中的因子负荷量是一致的;很多人对这两个概念并不加以区分而都称做因子载荷。矩阵称为因子载荷矩阵。i22,11,mmimmiFaFapipFaA为了更好地理解因子分析方法,有必要讨论一下载荷矩阵的统计意义与公因子与原始变量之间的关系。A2020/1/3中国人民大学六西格玛质量管理研究中心17目录上页下页返回结束§6.1.2因子分析的基本理论及模型1.因子载荷的统计意义ija由模型(6.7)式mjjijijjiFFaFX1),cov(),cov(mjjijjijFFFa1),cov(),cov(ija(6.9)即是与的协方差,而注意到,与()都是均值为0,方差为1的变量,因此,同时也是与的相关系数。请读者对比主成分分析一章有关因子负荷量的论述并对两者进行比较。ijaiXjFiXjFmjpi,,2,1;,,2,1ijaiXjF2020/1/3中国人民大学六西格玛质量管理研究中心18目录上页下页返回结束§6.1.2因子分析的基本理论及模型2.变量共同度与剩余方差在上面Spearman的例子中我们提到了共同度与剩余方差的概念,对一般因子模型(6.7)式的情况,我们重新总结这两个概念如下:称为变量的共同度,记为()。由因子分析模型的假设前提,易得:22221imiiaaaix2ihpi,,2,1)var(1)var(2iiihX记,则2)var(ii221)var(iiihx(6.10)(6.9)上式表明共同度与剩余方差有互补的关系,越大表明对公共因子的依赖程度越大,公共因子能解释方差的比例越大,因子分析的效果也就越好。2ih2i2ihiXiX2020/1/3中国人民大学六西格玛质量管理研究中心19目录上页下页返回结束§6.1.2因子分析的
本文标题:多元统计分析人大何晓群第六章.
链接地址:https://www.777doc.com/doc-2503211 .html