您好,欢迎访问三七文档
当前位置:首页 > 商业/管理/HR > 公司方案 > 第8章-因子分析与聚类分析(含SPSS)
第八章因子分析与聚类分析本章内容第一节因子分析第二节聚类分析第一节因子分析一、因子分析的概念和特点(一)因子分析的概念因子分析(factoranalysis)是利用降维的思想,由研究原始变量相关矩阵内部的依赖关系出发,把一些具有错综复杂关系的变量归结为少数几个综合因子的一种多变量统计分析方法。在会计实证研究中,因子分析发挥着重要的作用,如变量构造、变量筛选和综合评价等。(二)因子分析的特点1、因子变量的数量远少于原有指标变量的数量。2、因子变量并不是原有变量的简单取舍,而是对原有变量的重新组构。3、因子之间线性关系不显著。4、因子变量具有命名解释性。二、因子分析的数学模型和相关概念(一)因子分析的数学模型因子分析的数学模型为:(8.1)写成矩阵形式为,其中为原始变量向量,为公因子载荷矩阵,为公共因子,为特殊因子。pkpkppppkkkkkkfafafafaxfafafafaxfafafafaxfafafafax332211333332321313223232221212113132121111AFXXFA(二)因子分析中的基本概念1、因子的含义因子分析法中提到两种因子:公共因子和特殊因子。公共因子是每个原有变量的线性表达式中都共同出现的因子,各公因子都是均值为0,方差为1的独立正态随机变量。其协方差矩阵为单位矩阵。特殊因子表示原有变量不能被公共因子解释的部分,其均值为0。各特殊因子之间以及特殊因子与所有公共因子之间都是互相独立的。2、因子载荷模型中各公共因子的系数称为因子载荷,反映了第个变量在第个公共因子上的相对重要性,,的绝对值越大,表明与的相依程度越大。ijaij1ijaijaixjF3、变量共同度因子载荷矩阵中第行元素的平方和,称为变量的共同度,即变量方差。此值越接近1,表明该变量的几乎全部原始信息都被所选择的公共因子说明了。此值接近于0,说明公共因子对的影响很小,主要由特殊因子来描述。4、因子的方差贡献因子的方差贡献是因子载荷矩阵中第列元素的平方和,反映了因子对原有变量总方差的解释能力,是衡量公共因子相对重要性的指标。此值越大,表明相应因子的重要性越高。计算出所有的指标,按其大小排序,就可以提炼出最有影响的公共因子。iixixjfAjjf三、因子分析的步骤(一)因子分析的适合性检验1、相关矩阵和反映像相关矩阵相关矩阵中大部分相关系数都小于0.3,那么原则上这些数据不适合做因子分析。另外,如果反映像相关矩阵中除对角元素外,其他大多数元素的绝对值均较小,对角线上元素的值较接近1,则适合进行因子分析。2、检验检验统计量是用于比较变量间简单相关系数和偏相关系数的指标,取值在0和1之间。值越接近于1,意味着变量间的相关性越强,原有变量越适合做因子分析。KMOKMO3、巴特利特球度检验(Bartletttestofsphericity)巴特利特球度检验以原有变量的相关系数矩阵为出发点,其零假设是:相关矩阵为单位阵,即相关系数矩阵为对角矩阵。巴特利特球度检验的检验统计量是根据相关系数矩阵的行列式计算得到,且近似服从卡方分布。如果该统计量的观察值比较大且相伴概率值小于或等于给定的显著性水平,则应拒绝原假设;反之,如果该统计量的观察值比较小且相伴概率值大于给定的显著性水平,则不应拒绝原假设。(二)因子提取和因子载荷矩阵的求解因子分析的关键是根据样本数据求解因子载荷矩阵,SPSS提供了7种提取因子的方法,其中占主要地位且使用最为广泛的是主成分分析法。因子提取通常有以下三种方法:(1)特征值准则,即取特征值大于等于1的主成分作为初始因子,放弃特征值小于1的主成分。(2)累积方差贡献率,因子累积解释的方差比例也是确定因子个数时可以参考的指标,一般应达到70%-85%或以上。(3)碎石检验准则,按照因子被提取的顺序,画出因子的特征值随因子个数变化的散点图,图形由陡变平,曲线开始变平的前一个点被认为是提取的最大因子数。(三)因子命名在因子分析模型中,公共因子与因子载荷阵的解不是唯一的。因子分析的目的不仅是找出主因子,更重要的是知道每个主因子的意义,以利于对公共因子命名和解释结果,便于进一步的分析。若每个公共因子的涵义不清,难以找到合理的解释,可对因子载荷矩阵实行旋转,使每个变量仅在一个公共因子上有较大的载荷,而在其他公共因子上的载荷较小。SPSS中有5种因子旋转的方式可供选择:Varimax选项,方差最大旋转;DirectOblimin选项,直接斜交旋转;Quartimax选项,四次最大正交旋转;Equamax选项,平均正交旋转;Promax选项,斜交旋转方法。(四)计算因子得分,然后将它们用于各种进一步的分析中当因子确定以后,便可以计算各因子在每个样本上的具体数值,这些数值称为因子得分,形成的变量称为因子变量。于是在以后的分析中就可以因子变量代替原有变量进行数据建模,或者利用因子变量对样本进行分类或评价等研究,进而实现降维和简化问题的目标。由于因子得分函数中方程的个数小于变量的个数,因此不能精确的计算出因子得分,只能对因子得分进行估计。估计的方法很多,SPSS中列示了三种方法,常用的是Regression回归法。用因子得分还可以计算因子总分,根据因子总分可对样本(变量)进行排序或归类,作为评价的依据。四、因子分析在SPSS中的实现1、建立或打开数据文件后,进入Analyze→DataReduction→FactorAnalysis主对话框,如图8-1所示。图8-1因子分析主对话框2、把参与分析的变量选到Variables框中。3、SelectionVariable选择变量栏,用于限制有特殊值的样本子集的分析,当一个变量进入该栏时,激活右侧的“Value”按钮。待“Value”按钮激活后,单击该键,打开SetValue对话框,如图8-2所示,可在该对话框键入标识参与分析的观测量所具有的该变量值。图8-2SetValue对话框4、单击“Descriptivs”按钮,展开Descriptives对话框,如图8-3所示,可以选择单变量的描述统计量和初始分析结果。图8-3Descriptives对话框(1)Statistics统计量框①Univariatedescriptive复选项,单变量描述统计量。②Initialsolution复选项,初始分析结果。(2)CorrelationMatrix相关矩阵框①Coefficients复选项,显示相关系数。②Significancelevels复选项,显示相关系数的显著性水平。③Determinant复选项,显示相关系数矩阵的行列式。④Inverse复选项,显示相关系数矩阵的逆矩阵。⑤Reproduced选项,显示再生相关阵。⑥Anti-image复选项,选择此项给出反映象相关矩阵。⑦andBartlett’stestofSphericity复选项,要求进行检验和球形Bartlett检验。KMOKMO5、单击“Extraction”按钮,进入Extraction对话框,如图8-4所示,可以选择不同的提取公因子的方法和控制提取结果的判据。图8-4Extraction对话框(1)Method框,因子提取方法选择项①Principalcomponents选项,主成份法。②UnweightedleastSquare选项,不加权最小平方法。③Generalizedleastsquares选项,用变量值的倒数加权。④MaximumLikelihoud选项,最大似然法。⑤PrincipalAxisfactoring选项,使用多元相关的平方作为对公因子方差的初始估计。⑥Alphafactoring选项,因子提取法。⑦Imagefactoring选项,映象因子提取法。(2)Analyze框,指定分析矩阵的选择项。①CorrelationMatrix选项,指定以分析变量的相关矩阵为提取因子的依据。②Covariancematrix选项,指定以分析变量的协方差矩阵为提取因子的依据。(3)Display框,指定与因子提取有关的输出项。①Unrotatedfactorsolution复选项,要求显示未经旋转的因子提取结果。②Screeplot复选项,要求显示按特征值大小排列的因子序号,以特征值为两个坐标轴的碎石图。(4)Extract框,控制提取进程和提取结果的选择项。①Eigenvaluesover选项,指定提取的因子应该具有的特征值范围,在此项后面的矩形框中给出。②Numberoffactors选项,指定提取公因子的数目。(5)MaximumiterationsforConvergence参数框,指定因子分析收敛的最大迭代次数。6、单击“Rotation”按钮,展开Rotation对话框,如图8-5所示,可以选择因子旋转方法。图8-5Rotation对话框(1)Method框,选择旋转方法。其中,None表示不进行旋转,Varimax为方差最大旋转法,DirectOblilmin为直接斜交旋转法,Quartmax为四次最大正交旋转法,Equamax为平均正交旋转法,Promax为斜交旋转法。(2)Display框,选择有关输出的选项。其中:Rotatedsolution选项,显示旋转结果;Loadingplot(s)选项,显示因子载荷散点图。(3)MaximumiterationsforConvergence参数框,指定旋转收敛的最大迭代次数。7、单击“Scores”按钮,进入FactorScores对话框,如图8-6所示,可以要求计算因子得分,选择显示或作为新变量保存。图8-6FactorScores对话框(1)Saveasvariables复选项,将因子得分作为新变量保存在数据文件中。(2)Method栏,指定计算因子得分的方法。其中,Regression选项为回归法,Bartlett选项为巴特利特法,Anderson-Rubin选项是为了保证因子的正交性而对Bartlett因子得分的调整。(3)Displayfactorscorecoefficientmatrix复选项,选择此项将在输出窗中显示因子得分系数矩阵,是标准化的得分系数。原始变量值进行标准化后,可以根据该矩阵给出的系数计算各观测量的因子得分,还显示协方差矩阵。8、单击“Options”按钮,进入Options对话框,可以进一步选择各种输出项。如图8-7所示。图8-7Options对话框(1)MissingValues栏,选择处理缺失值方法。①Excludecaseslistwise选项,在分析过程中对那些指定的分析变量中有缺失值的观测量一律剔除。②Excludecasespairwise选项,成对剔除带有缺失值的观测量。。③Replacewithmean选项,用该变量的均值代替该变量的所有缺失值。(2)CoefficientDisplayFormat栏,决定载荷系数的显示格式。①Sortedbysize复选项,选中此项载荷系数按其数值的大小排列并构成矩阵。②Suppressabsolutevalueslessthan复选项,选中此项,不显示那些绝对值小于指定值的载荷系数。第二节聚类分析一、聚类分析概述(一)聚类分析的概念聚类分析是一种建立分类的多元统计分析方法,它能够将一批样本(或变量)数据根据其诸多特征,按照在性质上的亲疏程度在没有先验知识的情况下进行自动分类,将所有的样本或变量分别聚合到不同的类中,使同一类中的个体有较大的相似性,不同类中的个体差异较大。所谓“没有先验知识”是指没有事先指定分类标准;所谓“亲疏程度”是指在各变量(特征)取值上的总体差异程度。(二)层次聚类和K-Means聚类1、层次聚类层次聚类又称分层聚类、系统聚类,是指聚类过程是按照一定层次进行的。层次聚类按照不同特征分为以下两种:(1)按照对象类型分为型聚类和型聚类型聚类是对样本进行分类,主要作用为:①可综合利用多个变量的信息对样本进行分类;②分类结果直观,聚类谱系图非常清楚地表现
本文标题:第8章-因子分析与聚类分析(含SPSS)
链接地址:https://www.777doc.com/doc-6375455 .html