您好,欢迎访问三七文档
当前位置:首页 > 商业/管理/HR > 企业财务 > 第14章 因子分析、聚类分析和判别分析
1第十四章因子分析、聚类分析和判别分析第一节因子分析1904年,英国心理学家C.Spearman发表了GeneralIntelligence,ObjectivelyDeterminedandMeasured一文,提出了智力是由“普通因素”和“特殊因素”构成的基本观点,并创立了因子分析(FactorAnalysis)的双因素(即普通因素与独特因素)方法。20世纪30年代,L.L.Thurstone认为智力是由一些“基本心理能力”构成的。为了寻找这些基本的心理能力,他提出了通过旋转因素轴的方法确立“简单结构”的因子分析数学方法。他认为,旋转方法得到的因素可以是相关的,也可以是不相关的,如果是相关因素则可以对其进行再次分析,得到高阶因素。与此同时,一些统计学家也对因子分析进行了深入的研究,提出了因子分析的各种数学模型以及计算方法。1933年,Hotelling提出了因子分析的主成分法。1940年,Lawley提出了极大似然法。从此以后,因子分析被确认为是一种有效的统计分析方法。20世纪70年代,探索性的因子分析在方法上已经成熟,不仅用于心理学的智力和性格的研究,而且也用于态度、学习等领域的研究。随着计算机的发展和普及,因子分析在社会学、经济学和管理学等学科中得到了广泛的运用。一、因子分析的基本原理在公共管理的研究中,往往需要对反映事物的多个变量进行大量的观测,收集大量数据以便进行分析寻找规律。多变量大样本无疑会为公共管理研究提供丰富的信息,但也在一定程度上增加了数据采集的工作量和难度,更重要的是在大多数情况下,许多变量之间可能存在相关性而增加了问题分析的复杂性,同时对分析带来不便。如果分别分析每个指标,分析又可能是孤立的,而不是综合的。盲目减少指标会损失很多信息,容易产生错误的结论。因此需要找到一个合理的方法,减少分析指标的同时,尽量减少原指标包含信息的损失,对所收集的资料作全面的分析。由于各变量间存在一定的相关关系,因此有可能用较少的综合指标分别综合存在于各变量中的各类信息。因子分析是从研究相关矩阵内部的依赖关系出发,把一些具有错综复杂关系的变量归结为少数几个综合变量的一种降维的统计分析方法。在公共管理研究中,往往收集到的数据是多指标的。而且各指标之间通常不是独立的,或多或少存在着一定程度的关系。因子分析的目的是通过少数几个变量去2描述这众多变量间的协方差关系。这少数几个变量是潜在的,而且是难以观察的。在众多的观察变量中,必定存在某些高相关的变量,把这些高相关的变量综合成一组。这样同一组内变量之间是高相关的,而与其他各组的变量却只有较小的相关或是不相关。这些组内高相关的变量可以设想是由一个共同的因子在影响着它们而导致高相关。这个共同的因子称为公共因子。因子分析是以相关为基础,从协方差或相关阵开始把每个测量变量的方差分解成两个部分:一部分是由所有测量变量共同具有的少数几个因子引起的方差,即公共因子的方差;另一部分是每个测量变量特有的特殊因子引起的方差。公共因子和特殊因子之间是不相关的。若公共因子与特殊因子还存在相关,则说明特殊因子中还可以抽取公共因子。因子分析的基本过程通常可分为两个步骤:第一步:主因子分析。是通过对原始变量的相关系数矩阵内部结构的研究,导出能控制所有变量的少数几个综合变量,通过这少数几个综合变量去描述原始的多个变量之间的相关关系。一般来说,这少数的几个综合变量是不可观测的,故称其为因子,我们又称这种通过原始变量相关系数矩阵出发的因子分析为R型因子分析。因子分析所获得的反映变量间本质联系、变量与公共因子的关系的全部信息通过导出的因子负荷矩阵体现。第二步:因子解释和命名。从因子分析导出的负荷矩阵的结构出发,把变量按与公共因子相关性大小的程度分组,使同组内变量间的相关性较高,不同组的变量的相关性较低,按公共因子包含变量的特点(即公因子内涵)对因子进行解释和命名。二、因子分析的数学模型设m个可能存在相关关系的原始变量mXXX,,,21,含有P个独立的公共因子pFFF,,,21(pm),原始变量iX含有特殊因子i(i=1…m),各个i之间互不相关,且与jF(j=1…p)之间也互不相关,每个iX可由P个公共因子和自身对应的徨因子i线性表达:mpmpmmmppppFaFaFaXFaFaFaXFaFaFaX2211222221122112121111用矩阵表示:3mppmijmFFFaXXX212121.)(简记为)1()1()()1(mppmmFAX且满足:(1)pm(2)COV(F,)=0(即F与是不相关的)(3)E(F)=0COV(F)=pppI)(11(即F1,……FP不相关,且方差皆为1,均值皆为0)(4)E()=0COV()=Im(即m,,,21互不相关,且都是标准化的变量,假定mXXX,,,21也是标准化的,但并不相互独立)。式中:A称为因子负荷矩阵,其元素ija表示第i个变量(iX)在第j个公共因子jF上的负荷,简称因子负荷,如果把iX看成P维因子空间的一个向量,则ija表示iX在坐标轴jF上的投影。称作误差或特殊因子。因子分析的目的在于确定公共因子的个数p和各公共因素的系数ija,并依据这些系数来确定公共因素的内涵。三、因子负荷、方差贡献率和共同度因子分析的最后结果通常以因子负荷矩阵的形式给出,这个矩阵的一般形式如表14-1所示。表14-1:因子负荷矩阵的一般格式变量因子负荷量公共度(h2)因子1因子2…因子p12...ma11a21...am1a12a22...am2……...…a1pa2p...amppjmjmpjjpjjiahahah122122221212特征值miiaS12121miiaS12222…miippaS122ijijpjjmiiash21212方差贡献率mSp211mSp222…mSppp2pjjmSp124因子负荷ija是变量iX与因子jF的相关系数,它反映了变量iX对因子jF的依赖程度。在矩阵A中,第i行平方和为21221ipkikicah,h2称为共同度。共同度是公共因子所占的iX的方差,共同度越大,说明公共因子包含的iX的信息就越多。在A=(ija)中,第j列的平方和(j=1,……,p)mkkjjaS122代表公共因子jF的特征值,表示公共因子jF对所有原始变量mXXX,,,21提供的方差贡献总和。方差贡献率%100)(212mSXDSjmiij表示jF对所有原始变量的方差贡献率,方差贡献越大,jF就越重要。方差贡献率是衡量公共因子相对重要性的指标。一般选择几个公因子,就看所有公共因子的方差贡献率之和(称为累计方差贡献率)达到我们预想的百分比有几个公因子。四、公共因子抽取、旋转和解释因子分析的一个基本任务是从众多的变量中抽取若干个公共因子,从而达到减少变量的降维目标。在SPSS因子分析的因子抽取方法(Extraction-Method)模块中,提供了七种公共因子抽取方法,包括主成分分析法(Principalcomponents),这种方法认为各变量是因子的线性组合,并假定各因子不相关,主成分为方差最大的成分;未加权最小平方法(Unweightedleastsquares),这种方法使观测相关矩阵和再生相关矩阵的差矩阵的平方和最小;最小平方法(Generalizedleastsquares),这种方法用变量的单值加权,使观测相关矩阵和再相关矩阵的差矩阵的加权平方和最小;极大似然法(Maximumlikelihood),这种方法主要使用迭代方法来抽取公共因子;主轴因子抽取法(Principalaxisfactoring);α因子抽取法(Alphafactoring);映像因子抽取法(Imagefactoring)等等。这些方法本质上大都属近似方法,是以相关系数矩阵为基础的,所不同的是相关系数矩阵对角线上的值,采用不同的共同性2h估值。在这几种因子抽取方法中,较常使用的是主成分法和主轴法两种。主轴法在研究中似乎是一种传统的手段。这两种方法由于在数学模型及功能上的不同,因而适用范围也是不同的。如果进行分析的目的是为了简化问题,找出几个制约观测变量的潜在变量,从而根据与公共因子的相关程度对观测变量加以分类,或者根据个体在公共因子上的不同水平对个体进行分类或排序,则可使用主成分分析;若是问题的目的在于获取几个共同性的潜在变量,由于这几个共同性变量对观测变量的影响才使得观测变量之间出现相关,则理应使用主轴法。5因子抽取过程中的一个重要步骤就确定需要抽取几个公共因子。确定因子抽取数目涉及到因子模型与数据之间充分协调的问题,即因子抽取后对剩余残差以及公共因子方差合理性的评价。确定因子抽取数目方法有许多种,包括统计方法和代数方法。统计方法的假定在实际应用是是一种理想化的模型,实际操作较为困难。而确定因子数目的代数方法主要有三种:(1)通过对相关矩阵秩的估计来确定因子抽取个数,这种方法的一个经验性近似标准就是依据特征值(Eigenvalue)≥1来做出判断。(2)通过计算公共因子的方差百分比来确定抽取个数。这是一个最早使用的经验性方法,即计算先后抽取的因子的方差比例,当累积比例达到某一经验性的标准时即停止抽取。至于这个经验性的比例标准如何确定,则需要结合具体情况进行主观的经验性判断,在早期的智力研究中这个标准通常是85%。(3)使用图解法来确定因子抽取个数。即把特征值按大小排列后绘制一条曲线,在特征根发生急剧变化的临界点即为应该抽取的因子个数。这种方法在特征值出现显著变化的情况下效果是比较好的,但如果特征值逐渐下降,形成一条平缓的曲线时,图解法并不适用。这种方法有著名的SCREET碎石检验,是心理学家在进行基本个性因子研究的过程中提出来的。因子分析的目的不仅是为了抽取公共因子,更重要的是要知道抽取的每个公共因子的实际意义,以便对实际问题进行分析。如果每个公共因子的涵义不清,不便于对实际背景进行解释,这时根据因子负荷阵的不唯一性,可对因子负荷阵进行旋转,使旋转后的因子负荷阵结构简化,便于对公共因子进行解释。所谓结构简化就是使每个变量仅在一个公共因子上有较大的负荷,而在其余公共因子上的负荷较小。这种变换因子负荷的方法称为因子旋转。在SPSS的因子分析的旋转方法(Rotation-Method)模块中,共提供了5种因子旋转方法:①方差最大正交旋转法(Varimax),这种方法使负荷量的变异数在因子内最大,即使每个因子上具有最高负荷的变量数最少;②直接斜交转轴法(DirectOblimin),使因子负荷量的差积(cross-products)最小化;③四次方正交最大旋转法(Quartimax),该方法使负荷量的变异数在变项内最大,即使每个变量中需要解释的因子数最少;④平均正交旋转法(Equamax),这种方法使负荷量的变异数在因素内与变项内同时最大;⑤斜交转轴法(Promax),将直交转轴(varimax)的结果再进行有相关的斜交转轴。很多研究者在按正交因子模型做完因子分析后,总会得到模棱两可的解释。其根本原因出在“正交”上。正交因子模型是个理想化的模型。它要求公共因子间不相关,然而现实问题中,这些公共因子并非完全不相关的(可能相关性很小)。这样就6出现了现实问题同模型间的矛盾。依因子分析模型把事实上存在关系的变量“强行”让它们不相关。但用正交模型做的结果,却要用实际收集到的数据去解释。于是,实际问题与模型的矛盾导致解释上的麻烦。在实际应用因子分析中出现了难以解释的现象,根本原因是模型同实际数据的矛盾,而其直接原因表现在因子对变量的贡献不明确。对相同的数据做因子分析,结果会因人而异。因子解释和命名的是否妥当与研究者本人对因子分析把握程度有关,也与研究者对实际问题所涉
本文标题:第14章 因子分析、聚类分析和判别分析
链接地址:https://www.777doc.com/doc-6076788 .html