您好,欢迎访问三七文档
当前位置:首页 > 商业/管理/HR > 其它文档 > 08 第八章 因子分析
多元统计分析方法及其应用统计学院第一节因子分析的原理与模型第二节因子载荷矩阵的估计方法第三节因子得分及因子分析步骤第四节因子分析在Excel中的实现第八章因子分析因子分析是主成分分析的推广和发展,它是由研究原始数据相关矩阵的内部依赖关系出发,把一些具有错综复杂关系多个变量(或样品)综合为少数几个因子,并给出原始变量与综合因子之间的相关关系的一种多元统计分析方法。它也属于多元分析中数据降维的一种统计方法。第一节因子分析的原理与模型一、因子分析的基本思想和数学模型二、因子载荷矩阵的统计意义一、因子分析的基本思想和数学模型(一)基本思想因子分析是通过变量(或样品)的相关系数矩阵内部结构的研究,找出存在于所有变量(或样品)中具有共性的因素,并综合为少数几个新变量,把原始变量表示成少数几个综合变量的线性组合,以再现原始变量与综合变量之间的相关关系。其中,这里的少数几个综合变量一般是不可观测指标,通常称为公共因子。因子分析的常用的两种类型:一种是R型因子分析,即对变量进行因子分析;一种叫Q型因子分析,即对样品进行的因子分析。(二)数学模型对于一个样本,观测p个指标,n个样品的数据资料阵为:要求模型满足:(三)因子分析的应用1904年CharlesSpearman发表的《对智力测验得分进行统计分析》被视为因子分析的起点。因子分析在经济学、社会学、考古学、生物学、医学、地质学以及体育科学等领域应用十分广泛,都取得了显著的成绩。因子分析在经济分析中主要应用于两个方面:一是,寻求数据基本结构。如在经济统计中,描述一种经济现象的指标很多,这时就需要使用因子分析从中找出公共因子,每一个主因子就代表反映经济变量间相互依赖的一种经济作用,抓住这些主要因子就可以帮助我们对复杂经济问题进行分析和解释。二是,数据简化,进行分类处理。因子分析还可用于对变量或样品的分类处理,可以根据因子分析的得分值,在因子轴所构成的空间中把变量或样品点画出来,形象直观地达到分类的目的。因子载荷矩阵的统计意义假定因子模型中,各个变量、公共因子、特殊因子都已经进行了标准化处理。为进一步理解因子分析,下面给出因子载荷矩阵中有关因子载荷、变量共同度、公共因子方差贡献的统计意义。①因子载荷的统计意义②变量共同度的统计意义所谓变量共同度是指因子载荷矩阵中第i行元素的平方和。即为了说明变量共同度的统计意义,对下式两边求方差,有由于已经标准化,所以有说明,原始变量的方差由两部分组成:第一部分为共同度,它刻划了全部公共因子对变量的总方差所做的贡献,共同度越接近1,说明该变量的几乎全部原始信息都被所选取的公共因子说明了。第二部分为特殊因子的方差,它仅与本身的变化有关,它是使的方差为1的补充值。③公因子方差贡献的统计意义所谓公共因子方差贡献是指因子载荷矩阵中第j列元素的平方和。即表示同一公共因子对各个变量所提供的方差贡献的总和。它是衡量公共因子相对重要性的指标。第二节因子载荷矩阵的估计方法一、因子载荷矩阵的估计二、因子载荷矩阵的方差最大正交旋转三、因子载荷矩阵的Promax协旋转一、因子载荷矩阵的估计进行因子分析的一个关键问题是如何求出因子载荷矩阵,主因子载荷矩阵的估计方法有很多,其中常用的是主成分方法。因子载荷矩阵的估计是从分析原始数据协方差矩阵的内部结构开始的。二、因子载荷矩阵的方差最大正交旋转因子载荷矩阵旋转是根据因子载荷矩阵的不唯一性,用一个正交矩阵右乘因子载荷矩阵,实行旋转(由线性代数,一次正交变换,对应坐标系的一次旋转),使旋转后的因子载荷矩阵结构简化,以便对公共因子进行合理的解释。所谓结构简化就是使得每个变量仅在一个公共因子上有较大的载荷,而在其他的公共因子上的载荷比较小,也就是说,每个变量仅与一个公共因子有较大的相关系数,而与其他的公共因子的相关系数较小。常用因子载荷矩阵旋转的方法有:方差最大正交旋转、斜交旋转等。最常用的是方差最大正交旋转。(一)因子载荷矩阵的方差最大正交旋转方差最大正交旋转是使因子载荷矩阵中,各因子载荷值的总方差达到最大作为因子载荷矩阵结构简化的准则。其中。总方差最大,而不是某个因子方差极大。即如果第i个变量在第j个公共因子上的载荷经过“方差极大”旋转后,其值增大或减少,意味着这个变量在另一些公共因子上的载荷要缩小或增大。所以“方差极大”旋转是使载荷值按照列向0,1两极分化,同时也包含着按行向两极分化。具体原理如下:为此,选择如下的正交矩阵进行变换:三、因子载荷矩阵的Promax协旋转在方差极大旋转过程中,因子轴互相正交,始终保持初始解中因子间不相关的特点,然而在社会学、经济学、心理学等科学领域内,协交因子是普遍规律,即相互影响的各种因素是不大可能是彼此无关的,各种事物变化的各种内在因素之间始终存在着错综复杂的联系,因此需要介绍协交因子解,即将变量用相关因子进行线性描述,使得到的新因子模型最大程度地模拟自然模型。(一)协交因子模型与协交因子解在协交因子轴情况下,坐标和投影,即模型和结构之间是有差别的。而在正交因子空间中,坐标值和投影值一致,基因子模型和因子结构是一回事,无需区分这两者。一个完全协交因子解必须包括因子模型和因子结构两大部分。1.因子变换矩阵.2.协因子相关矩阵3.因子结构矩阵4.因子模型矩阵(二)promax斜旋转步骤为:第三节因子得分及因子分析步骤一、因子得分二、因子分析适用性的检验三、因子分析计算步骤一、因子得分因子分析的数学模型是将变量(或样品)表示为公共因子的线性组合:piFaFaFaXimimiii2,12211由于公共因子能够反映原始变量的相关关系,用公共因子代表原始变量时,有时更有利于描述研究对象的特征,因而往往反过来将公共因子表示为变量或样品的线性组合,即称上式为因子得分函数,用它来计算每个样品的公共因子得分。mjXXFpjpjj2,111由于因子得分函数中的方程个数少于变量个数,因此不能精确计算出因子得分,只能对因子得分进行估计。估计因子得分的方法有许多,如加权最小二乘法、回归法等,这里介绍回归法。假设公共因子可以对p个变量作回归,回归方程为:mjXbXbbFpjpjjj2,1ˆ110由于假设变量和公共因子都已经进行了标准化,所以为此,可以先求出回归系数,然后给出因子得分的计算公式。mjXbXbFbpjpjjj2,1ˆ110由于因子得分F的值是事先不知道的,是待估计的,所以无法像回归分析中那样利用最小二乘法直接进行参数估计。但是我们可以知道根据样本资料计算的因子载荷矩阵。根据因子载荷矩阵的统计意义有:二、因子分析适用性的检验由于因子分析的目的是简化数据结构或找出基本的数据结构,因此使用因子分析的前提条件是原始数据各个变量之间应有较强的相关关系。如果原始变量之间的相关程度很小,它们不可能共享公共因子。所以,计算出相关矩阵后,在进行进一步的因子分析步骤之前应该对相关矩阵进行检验,如果相关矩阵的大部分相关系数都小于0.3,则不适合做因子分析。除了上述一般的分析观察外。对原始数据的相关矩阵进行检验以便分析是否适合进行因子分析,还可以用以下统计量:1.反映像相关矩阵(Anti-imagecorrelationmatrix)即由元素等于负的偏相关系数形成的矩阵。由于偏相关系数是指控制其它变量不变,来测量一个自变量对因变量的独特解释作用的。如果原始数据中确实存在公共因子,变量之间的偏相关系数应该很小,因为它与其它变量重叠的解释影响被扣除掉了,所以,如果反映像相关矩阵中的很多元素值比较大时,应该考虑该原始数据不适合做因子分析。2.巴特莱特球体检验(Bartletttestofsphercity)该统计量从检验整个相关矩阵出发,其零假设为相关矩阵为单位矩阵,如果不能拒绝该假设的话,说明原始数据不适合进行因子分析的。3、KMO测度(Kaiser-Meyer-Olkin-MeasureofSamplingAdequacy)该测度是从比较原始变量之间的简单相关系数和偏相关系数的相对大小出发,其值变化范围从0到1。当所有变量之间的偏相关系数的平方和,远远小于简单相关系数的平方和时,KMO值接近1。KMO值较小时,表明原始变量不适合做因子分析。通常按照以下的标准解释该指标值的大小:0.9以上,非常好;0.8以上,好;0.7,一般;0.6,差,0.5,很差;0.5以下,不能接受。4.共同度检验在某一变量上各因子负荷量平方值的总和。变量的共同性越高,因子分析的结果越理想。三、因子分析计算步骤第一步:数据标准化第二步:计算相关系数矩阵其中:pppppprrrrrrrrrR212222111211tjnttiijxxnr111),,2,1,(pji第三步:计算相关系数矩阵的特征值以及特征向量令,求得特征值,特征值贡献率,累计贡献率及特征向量。第四步:确定综合因子数以及因子结构和因子模型。第五步:计算因子得分矩阵。第六步:基于因子得分的进一步的统计分析和应用。0IR本章内容讲授结束
本文标题:08 第八章 因子分析
链接地址:https://www.777doc.com/doc-4236144 .html