您好,欢迎访问三七文档
当前位置:首页 > 商业/管理/HR > 其它文档 > 多元统计分析之因子分析
多元统计分析方法————因子分析引言事物的表现是多方面的,事物之间的相互作用也是交叉重叠和具有层次性的,所以我们期望对事物进行准确描述的时候总会陷入一种两难:一方面,对事物的各种表现的观测越全面,对事物的认识就越准确和越完整;另一方面,对事物的观测越全面,得到的描述变量就越多,对事物的特性的表述却变得更加困难了!显然,在高维度空间中描述事物比在低维度的空间中描述事物更客观,却更困难。这一矛盾如何解决呢?统计学提供了最有效的方法和手段,即下面要学习因子分析。一、基本理论三、因子分析的基本步骤目录四、因子分析的spss实例应用二、因子分析模型一、基本理论1.什么是因子分析?因子分析是将具有错综复杂关系的变量(或样本)综合为少数几个因子,以再现原始变量和因子之间的相互关系,探讨多个能够直接测量,并且具有一定相关性的实测指标是如何受少数几个内在的独立因子所支配,并且在条件许可时借此尝试对变量进行分类。2.因子分析的基本思想根据变量间相关性的大小把变量分组,使得同组内的变量之间的相关性(共性)较高,并用一个公共因子来代表这个组的变量,而不同组的变量相关性较低(个性)。因子分析将每个原始变量分解成两部分因素,一部分是由所有变量共同具有的少数几个公共因子组成的,另一部分是每个变量独自具有的因素,即特殊因子。3.因子分析的目的因子分析的目的,通俗来讲就是简化变量维数。即要使因素结构简单化,希望以最少的共同因素(公共因子),能对总变异量作最大的解释,因而抽取得因子越少越好,但抽取的因子的累积解释的变异量越大越好。例:在企业形象或品牌形象的研究中,消费者可以通过一个由24个指标构成的评价体系,评价百货商场的24个方面的优劣。但消费者主要关心的是三个方面,即商店的环境、商店的服务和商品的价格。因子分析方法可以通过24个变量,找出反映商店环境、商店服务水平和商品价格的三个潜在的因子,对商店进行综合评价。而这三个公共因子可以表示为:xi=ai1F1+ai2F2+ai3F3+εi(i=1,2,3....24)称F1、F2、F3是不可观测的潜在因子,也称为公共因子。24个变量共享这三个因子,但是每个变量又有自己的个性,不被包含的部分εi,称为特殊因子。二、因子分析模型因子分析是通过研究多个变量间相关系数矩阵(或协方差矩阵)的内部依赖关系,找出能综合所有变量的少数几个综合指标,这几个综合指标是不可测量的,但它更能反映事物的本质,通常称为因子。各个因子间是独立的、互不相关,所有变量都可以表示成公因子的线性组合。1.数学模型设有N个样本,P个指标,X=(x1,x2,.....,.xp)T为随机向量,要寻找公共因子为F=(F1,F2,.......,FM)T,则模型:X1=a11F1+a12F2...+a1mFm+ε1X2=a21F1+a22F2...+a2mFm+ε2::Xp=ap1F1+ap2F2...+apmFm+εp被称为因子模型。矩阵A=(aij)称为因子载荷矩阵,aij为因子载荷,其实质就是公因子Fi和变量Xj的相关系数。ε为特殊因子,代表公因子以外的影响因素所导致的(不能被公共因子所解释的)变量变异,实际分析时忽略不计。上述模型表示成矩阵形式为:X=AF+ε。对求得的公因子,需要观察它们在哪些变量上有较大的载荷,再据此说明该公因子的实际含义。但对于分析得到的初始因子模型,其因子载荷矩阵往往比较复杂,难以对公因子Fi给出一个合理的解释,此时可以考虑进一步做因子旋转,以求旋转后能得到更加合理的解释。因子分析得到的模型有两个特点:其一,模型不受量纲的影响;其二,因子载荷不是唯一的,通过因子轴的旋转,可以得到新的因子载荷阵,使意义更加明显。2.各统计量的意义(1)特征值(Eigenwalue):它可以被看成是公因子响力度的指标,代表引入该因子后可以解释平均多少个原始变量的信息。如果特征值小于1,说明该因子的解释力度还不如直接引入一个原变量的平均解释力度大,因此一般可以用特征值大于1作为纳入标准。(2)累计贡献率:前k个主成分的累计贡献率指按照方差贡献率从大到小排列,前k个主成分累计提取了多少的原始信息,即前面k个主成分累计提取了x1,x2,…,xp多少的信息。一般来说,如果前k个主成分的累计贡献率达到85%,表明前k个主成分包含了全部测量指标所具有的主要信息,这样既减少了变量的个数,又便于对实际问题的分析和研究。(3)因子载荷aij:因子载荷aij为第i个变量在第j个因子上的载荷,实际上就是xi与Fj的相关系数,表示变量xi依赖因子Fj的程度,或者说反映了第i个变量xi对于第j公因子Fj的相对重要性。其绝对值越大,则表示公因子Fj与xi的关系越密切。(4)变量共同度:变量共同度也称为公共方差,记为hj2,表示全部公因子对变量xi的总方差所作出的贡献,或者变量xi的信息能够被k个公因子所描述的程度,数值在0~1之间。取值越大,说明该变量能被公共因子解释的信息比例越高。变量xi的共同度为因子载荷矩阵A中第i行元素的平方和,即:hi2=,(j=1,2,3,……k)m1j2ija如果大部分变量的共同度都在0.8上,则说明提取出的公因子已经基本反映了各原始变量80%以上的信息,因子分析效果理想。(5)公因子的方差贡献:公因子Fj的方差贡献定义为因子载荷矩阵中第j列元素的平方和,即:Sj=(i=1,2,3,……k)它所反映的是该因子对所有原始变量总方差的解释能力,其值越大,说明该因子的重要性越高。n1i2ija三、因子分析的基本步骤因子分析中需要解决两个问题:一是如何来构造少量的并且能够尽可能的反映原有信息的因子;二是如何对析取出的因子进行命名解释。其基本步骤如下:1.确定待分析的原始变量是否适合进行因子分析,即进行因子分析的前提假设是否满足。2.因子提取3.因子旋转4.计算因子得分1.确定待分析的原始变量是否适合进行因子分析由于因子分析是从众多原始变量中构造出少数几个有代表意义的因子,这就要求原变量之间具有较强的相关性。如果原变量间不存在相关关系,或者说没有共同成分的话,就无法、也没有必要再去析取因子,因为原变量本身就已经是最小的不能再缩减的变量集。因此,因子分析时,需要对原变量进行相关分析。如果在计算出的相关矩阵,大部分相关系数都小于0.3,并且未通过统计检验,则变量不适合于进行因子分析。此外,SPSS的因子分析过程也提供了用于检验变量是否合适于做因子分析的方法:方法一:KMO检验KMO(Kaiser-Meyer-Olkin)检验统计量是用于比较变量间简单相关系数和偏相关系数的指标。主要应用于多元统计的因子分析。KMO检验是依据变量间的简单相关与偏相关的比较。其计算公式为所有原变量简单相关系数的平方和除以简单相关系数平方和加偏相关系数平方和。即:其中,是变量i和j的简单相关系数,是变量i和变量j的偏相关系数。2ijr2ijp(0≤KMO≤1)如果KMO值越接近1,则越适合于做因子分析,如果KMO越小,则越不适合于做因子分析,其判断标准如下:0.9KMO:非常适合0.8KMO0.9:适合0.7KMO0.8:一般0.6KMO0.7:不太适合KMO<0.5:不合适方法二:巴特利特(Bartlett)球形检验该检验首先假设变量相关矩阵为单位阵(对角线为1、非对角线为0),然后检验实际相关矩阵与此差异性。如果差异性显著,则拒绝单位阵假设,即认为原变量间的相关性显著,适合于作因子分析,否则不能作因子分析。方法三:反映象相关矩阵检验将偏相关矩阵中的每个元素取反,得到反映像相关矩阵。如果原变量间相互作用较大,则控制了这些相互作用后的偏相关系数较小,此时反映像相关矩阵中的元素的绝对值比较小,则适合于做因子分析,反之则不适合于作因子分析。2.因子提取因子提取方法因子分析中,析取因子的方法有许多种,在“抽取”对话框中的“方法”下拉列表框中,可以选择不同的分析方法。(1)主成分法:为默认选项,也是最常用的使用方法之一。此方法将原有的P个相关变量Xi作线性变换后转成另一组不相关的变量Yi,即:y1=u11x1+u21x2+…+up1xpy2=u12x1+u22x2+…+up2xp……yP=u1Px1+u2Px2+…+uppxp该方程组要求:u1k2+u2k2+u3k2+…+upk2=1(k=1,2,3,…p)系数uij依照两个原则来确定:yi与yj(i≠j,i,j=1,2,3,…p)互不相关;y1是x1,x2,x3,…,xp的一切线性组合(系数满足上述方程组)中方差最大的;y2是与y1不相关的x1,x2,x3,…,xp的一切线性组合中方差次大的;yP是与y1,y2,y3,…yp都不相关的x1,x2,x3,…,xp的一切线性组合中方差最小的;即y1,y2,y3,y4,……,yp为原有变量的第1、第2、第3和第p个主成分。通过选取前面几个方差最大的主成分,一方面能够用较少变量反映原有变量的绝大部分信息(一般方差的累计贡献率应大于85%),另一方面减少了数据分析和处理的复杂程度。(2)未加权的最小平方法:该方法使实际的相关阵和再生的相关阵之差的平方和达到最小。(3)广义最小二乘法:该方法实际也是使实际的相关阵和再生的相关阵之差的平方和达到最小。但是对相关系数要进行加权,权重为其单值的倒数,这样单值高的变量,其权重比单值低的变量的权重小。(4)最大似然法。该方法要求数据服从多变量正态分布,此时它生成的参数估计值最接近观察到的相关阵,在样本量较大时使用较好。(5)主轴因子分解:该方法从原始变量的相关性出发,使得变量间的相关程度能够尽可能地被公因子解释。该方法重在解释变量的相关性,确定内在结构,而对于变量方差的解释不太重视。(6)α因子分解法:此法将变量看成是从潜在变量空间中抽取出的样本,在计算中尽量使得变量的α信度达到最大。(7)映像因子分解:该方法把一个变量看作是其他变量的多元回归,据此概念提取公因子。事实上,如果变量数和样本量都大,而且相关性也高,则各种因子提取法的结果基本相同,区别仅仅在于其分析思想不同。主成分法是最常用的方法,在多数情况下也是最佳的选择;如果样本量极大(1500以上),则极大似然法的结果稍为更精确些;如果数据不好(样本小,或变量少),α因子法或映像因子法可能更好;当对各种方法的原理不太清楚或者适用条件不明的情况下,主成分法仍然是最好的选择。因子个数的确定根据特征值确定因子数:一般选取特征值大于1的公因子,因为如果特征值小于1,说明该公因子的解释力度太弱,还比不上直接引入一个原变量的平均解释力度大。但是这一点在因子分析中并不是绝对的,在实际应用中,可以将累计贡献率、特征值大小与碎石图等综合起来考虑,必要时也可以保留特征值小于1,但是在专业上有明确含义的公因子。也可以根据因子的累计方差贡献率确定因子数:通常选取累计方差贡献率大于85%的特征值个数为因子个数。另外,还可以通过直观观察碎石图的方式确定因子的个数。3.因子旋转根据前述分析,因子分析得到的每个公共因子都对原变量中的每一变量作出一定解释,而解释程度的大小反映在因子载荷矩阵A的元素结构上。一般我们可以得到每一列的因子载荷中有一些是比较大的,而另一些比较小,就可以知道该列对应的因子主要解释了哪些变量,以此确定该公共因子的主要特征和内涵。但有时,因子载荷的大小差异不是非常明显,此时公共因子的命名和解释就比较困难。这时可以使用因子矩阵旋转对因子矩阵作变换,使得旋转之后的载荷矩阵在每一列上元素的绝对值尽量地拉开大小距离,增加因子载荷的差异性,提高因子的可解释性。最常用的因子旋转是最大方差法,因为此种方法使因子载荷获得最佳分化。因子旋转方法有正交旋转和斜交旋转两大类:(1)最大方差正交旋转(Varimax):最常用的旋转方法,使各因子仍然保持正交的状态,但尽量使得各因子的方差差异达到最大,即相对的载荷平方和达到最大,从而方便对因子的解释。(2)四次方最大正交旋转(Quartimax):该方法对各因子方差差异化的效果显然更强,同时倾向于减少和每个变量有关联的因子数,从而简化对原变量的解释。(3)最大
本文标题:多元统计分析之因子分析
链接地址:https://www.777doc.com/doc-4346720 .html