您好,欢迎访问三七文档
当前位置:首页 > 行业资料 > 能源与动力工程 > 多元统计分析第五章第一部分课件
第五章因子分析§5.1引言§5.2正交因子模型§5.3参数估计§5.4因子旋转§5.5因子得分§5.6实例分析§5.1引言主成分分析的成功需满足如下两点:(1)前(少数)几个主成分具有较高的累计贡献率;(通常较易得到满足)(2)对主成分给出符合实际背景和意义的解释。(往往正是主成分分析的困难之处)因子分析的用途与主成分分析类似,它也是一种降维方法。由于因子往往比主成分更易得到解释,故因子分析比主成分分析更容易成功,从而有更广泛的应用。从方法上来说,因子分析比主成分分析更为精细,理论上也就更为复杂。主成分分析只涉及一般的线性变换,不涉及模型,仅需假定二阶矩存在。而因子分析需建立一个数学模型,并作一定的假定。因子分析起源于20世纪初,K.皮尔逊(Pearson)和C.斯皮尔曼(Spearman)等学者为定义和测定智力所作的努力,主要是由对心理测量学有兴趣的科学家们培育和发展了因子分析。因子分析的目的是为了降维,降维的方式是试图用少数几个潜在的、不可观测的随机变量来描述原始变量间的协方差关系。查尔斯·爱德华·斯皮尔曼(CharlesEdwardSpearman,1863-1945)英国理论和实验心理学家。他大器晚成,1906年在德国获博士学位。1911年任伦敦大学心理学、逻辑学教授。1923至1926期间年任英国心理学会主席。1924年当选为英国皇家学会院士。作为实验心理学的先驱,斯皮尔曼对心理统计的发展做了大量的研究,他对相关系数概念进行了延伸,导出了等级相关的计算方法。他还创立因素分析的方法,这是他学术上最伟大的成就。他还将之与智力研究相结合,从而于1904年提出智力结构的“二因素说”,即‘G’因素(一般因素)和‘S’因素(特殊因素)。他反对联想理论,著有《智力的性质和认知的原理》、《人的能力》、《创造的心》等。例如,在商业企业的形象评价中,消费者可以通过一系列指标构成的一个评价指标体系,评价百货商场的各个方面的优劣。但消费者真正关心的只是三个方面:商店的环境、商店的服务和商品的价格。这三个方面除了价格外,商店的环境和服务质量,都是客观存在的、抽象的影响因素,都不便于直接测量,只能通过其它具体指标进行间接反映。因子分析就是一种通过显在变量测评潜在变量,通过具体指标测评抽象因子的统计分析方法。又比如,在研究区域社会经济发展中,描述社会与经济现象的指标很多,过多的指标容易导致分析过程复杂化。一个合适的做法就是从这些关系错综复杂的社会经济指标中提取少数几个主要因子,每一个主要因子都能反映相互依赖的社会经济指标间共同作用,抓住这些主要因素就可以帮助我们对复杂的社会经济发展问题进行深入分析、合理解释和正确评价。例1林登(Linden)根据他收集的来自139名运动员的比赛数据,对第二次世界大战以来奥林匹克十项全能比赛的得分作了因子分析研究。这十个全能项目为:100米跑(X1),跳远(X2),铅球(X3),跳高(X4),400米跑(X5),11米跨栏(X6),铁饼(X7),撑杆跳高(X8),标枪(X9),1500米跑(X10)。经标准化后所作的因子分析表明,十项得分基本上可归结于他们的短跑速度、爆发性臂力、爆发性腿力和耐力这四个方面,每一方面都称为一个因子。十项得分与这四个因子之间的关系可以描述为如下的因子模型:Xi=μi+ai1f1+ai2f2+ai3f3+ai4f4+εi,i=1,2,⋯,10其中f1,f2,f3,f4表示四个因子,称为公共因子(commonfactor),aij称为Xi在因子fj上的载荷(loading),μi是Xi的均值,εi是xi不能被四个公共因子解释的部分,称之为特殊因子(specificfactor)。例2公司老板对48名应聘者进行面试,并给出他们在15个方面所得的分数,这15个方面是:X1:申请书的形式X9:经验X2:外貌X10:积极性X3:专业能力X11:抱负X4:讨人喜欢X12:理解能力X5:自信心X13:潜力X6:精明X14:交际能力X7:诚实X15:适应性X8:推销能力通过因子分析,这15个方面可以归结为应聘者的外露能力、经验、讨人喜欢的程度、专业能力和外貌这五个因子。注:因子分析与回归分析不同,因子分析中的因子是一个比较抽象的概念,而回归因子有非常明确的实际意义;主成分分析与因子分析也有不同,主成分分析仅仅是变量变换,而因子分析需要构造因子模型。主成分分析:原始变量的线性组合表示新的综合变量,即主成分;因子分析:潜在的假想变量和随机影响变量的线性组合表示原始变量。§5.2正交因子模型一、数学模型二、正交因子模型的性质三、因子载荷矩阵的统计意义一、数学模型设有p维可观测的随机向量,其均值为,协差阵为Σ=(σij)。因子分析的一般模型为其中f1,f2,⋯,fm为公共因子,ε1,ε2,⋯,εp为特殊因子,它们都是不可观测的随机变量。公共因子出现在每一个原始变量的表达式中,可理解为原始变量共同具有的公共因素。上式可用矩阵表示为:X=μ+Af+𝛆12(,,,)pXXXX12(,,,)pμ111111221122211222221122mmmmpppppmmpXafafafXafafafXafafaf式中为公共因子向量,为特殊因子向量,称为因子载荷矩阵。通常假定该假定和上述关系式构成了正交因子模型。由上述假定可以看出,公共因子彼此不相关且具有单位方差,特殊因子也彼此不相关且和公共因子也不相关。12,,,mffff12,,,pε:ijapmA22212diag,,,Cov,pEEVVEfεfIεDfεfε000二、正交因子模型的性质1.X的协差阵Σ的分解2.模型不受单位的影响3.因子载荷是不惟一的1.X的协差阵Σ的分解故得Σ=AA′+D如果X为各分量已标准化了的随机向量,则Σ就是相关阵R=(ρij),即有R=AA′+DCov,Cov,Cov,AfεAfεAfεAfAAfεεfAεAfAεVXVVVVV例3设随机向量X=(X1,X2,X3,X4)′的协方差矩阵为则Σ可分解为Σ=AA′+D其中911520112717425175252042586Σ214000430200,170020920001AD若取,则有分解式此时m=p,没有达到降维目的,故所作的因子分析没有意义。出于降维的需要,我们常常希望m要比p小得多,这样前述Σ的分解式通常只能近似成立,即有Σ=AA′+D近似程度越好,表明因子模型拟合得越佳。一般来说,m选取得越小,上述近似效果就越差,即因子模型拟合得越不理想。拟合得太差的因子模型是没有什么实际意义的,故实践中m也不应选得过小。12,AΣD01122ΣΣΣ02.模型不受单位的影响将X的单位作变化,通常是作一变换X*=CX,这里C=diag(c1,c2,⋯,cp),ci>0,i=1,2,⋯,p,于是X*=Cμ+CAf+Cε令μ*=Cμ,A*=CA,ε*=Cε,则有X*=μ*+A*f+ε*这个模型能满足类似于前述因子模型的假定,即****Cov,Cov,EEVVfεfIεDfεfεC000*2*2*2*22212*diag(,,,),1,2,,piiicipD,其中因此,单位变换后新的模型仍为正交因子模型。3.因子载荷是不惟一的设T为任一m×m正交矩阵,令A*=AT,f*=T′f,则模型能表示为X=μ+A*f*+ε.因为E(f*)=T′E(f)=0;V(f*)=T′V(f)T=T′T=I;Cov(f*,ε)=E(f*ε′)=T′E(fε′)=0所以仍满足模型条件。Σ也可分解为Σ=A*A*′+D因此,因子载荷矩阵A不是惟一的,在实际应用中常常利用这一点,通过因子的旋转(见稍后的§5.4),使得新的因子有更好的实际意义。三、因子载荷矩阵的统计意义1.A的元素aij2.A的行元素平方和3.A的列元素平方和221miijjha221pjijiga1.A的元素aijXi=μi+ai1f1+ai2f2+⋯+aimfm+εi即aij是Xi与fj之间的协方差。若X为各分量已标准化了的随机向量,则Xi与fj的相关系数此时aij表示Xi与fj之间的相关系数。1Cov,Cov,Cov,mijikkjijijkXfafffaCov,,Cov,ijijijijijXfXfXfaVXVf2.A的行元素平方和Xi=μi+ai1f1+ai2f2+⋯+aimfm+εi令,则221miijjha222112222221212,,,,iiiimmiiiimiVXaVfaVfaVfVaaaip22112,,,,miijjhaip2212,,,,iiiihip反映了公共因子对Xi的影响,可以看成是公共因子f1,f2,⋯,fm对Xi的方差贡献,称为共性方差(communality);而是特殊因子εi对Xi的方差贡献,称为特殊方差(specificvariance)。当X为各分量已标准化了的随机向量时,σii=1,此时有2ih2i221,1,2,,iihip3.A的列元素平方和其中反映了公共因子fj对X1,X2,⋯,Xp的影响,是衡量公共因子fj重要性的一个尺度,可视为公共因子fj对X1,X2,⋯,Xp的总方差贡献。221pjijiga221,1,2,,pjijigajm2jg2211111122211ppppiiimmiiiiipmiiVXaVfaVfVgg§8.3参数估计一、主成分法二、主因子法三、极大似然法一、主成分法设样本协方差矩阵S的特征值依次为,相应的正交单位特征向量为.选取相对较小的因子数m,并使得累计贡献率达到一个较高的百分比,则S可近似分解如下:其中为p×m矩阵,,i=1,2,⋯,p。这里的和就是因子模型的一个主成分解。对主成分解,当因子数增加时,原来因子的估计载荷并不变,第j个因子fj对X的总方差贡献仍为。11ˆˆpmiiii111111111ˆˆˆˆˆˆˆˆˆˆˆˆˆˆˆˆˆˆˆˆˆˆmmmmmmpppmmmSttttttttttttDAAD11ˆˆˆˆˆˆ,,mmijAtta221ˆˆˆdiag,,,pDˆAˆD221ˆˆmiiiijjsa12ˆˆˆ,,,pttt120ˆˆˆpˆi例5如下八项男子径赛运动记录:x1:100米(秒)x5:1500米(分)x2:200米(秒)x6:5000米(分)x3:400米(秒)x7:10000米(分)x4:800米(秒)x8:马拉松(分)表3八项男子径赛运动记录的样本相关矩阵x1x2x3x4x5x6x7x8x11.000x20.9231.000x30.8410.8511.000x40.7560.8070.8701.000x50.7000.7750.8350.9181.000x60.6190.6950.7790.8640.9281.000x70.6330.6970.7870.8690.9350.9751.000x80.5200.5960.7050.8060.8660.9320.9431.000表4的前三个特征值、特征向量以及贡献率ˆR特征向量:100米0.3180.5670.332:200米0.3370.4620.361:400米0.3560.248−0.560:800米0.3690.012−0.532:1500米0.373−0.140−0.
本文标题:多元统计分析第五章第一部分课件
链接地址:https://www.777doc.com/doc-3835782 .html