概率统计统计-因子分析

武汉纺织大学备课纸1第七章因子分析（补充教材）§7.1因子分析的意义和作用一、因子分析的概念和意义因子分析是将多个实测变量转换为少数几个不相关的综合指标的多元统计方法，在教育领域和若其它领域的科学研究中，往往需要对反映事物、现象从多个角度进行观测，也就设计出多个观测变量，从多个变量收集大量数据以便进行分析寻找规律。多变量大样本虽然会为我们的科学研究提供丰富的信息，但确增加了数据采集和处理的难度。更重要的是在大多数情况下，许多变量之间存在一定的相关关系，从而增加了问题分析的复杂性。因子分析就是将大量的彼此可能存在相关关系的变量转换成较少的，彼此不相关的综合指标的一种多元统计方法。这样既可减轻收集信息的工作量，且各综合指标代表的信息不重叠。便于分析。二、因子分析的基本过程因子分析的基本过程可分为两个步骤：第一步主因子分析是通过原始变量的相关系数矩阵内部结构的研究，导出能控制所有变量的少数几个综合变量，通过这少数几个综合变量去描述原始的多个变量之间的相关关系。一般来说，这少数的几个综合变量是不可观测的，故称其为因子，我们又称这种通过原始变量相关系数矩阵出发的因子分析为R型因子分析。因子分析所获得的反映变量间本质联系、变量与公共因子的关系的全部信息通过导出的因子负荷矩阵体现。第二步对因子解释和命名从因子分析导出的负荷矩阵的结构出发，把变量按与公共因子相关性大小的程度分组，使同组内变量间的相关性较高，不同组的变量的相关性较低，按公因子包含变量的特点(即公因子内涵)对因子作解释命名。例1(见教材P162)三、因子分析教材在分析测验中的作用(见教材P163-P164)§7.2因子分析的原理和数学模型一、数学模型(正交因子模型)武汉纺织大学备课纸2设m个可能存在相关关系的测试变量z1,z2,……,zm含有P个独立的公共因子F1,F2,……,Fp(m≥p),测试变量zi含有独特因子Ui(i=1…m)，诸Ui间互不相关，且与Fj(j=1…p)也互不相关，每个zi可由P个公共因子和自身对应的独特因子Ui线性表出：mmpmpmmmppppUcFaFaFaZUcFaFaFaZUcFaFaFaZ221122222211221112121111(7.2-1)用矩阵表示：mmppmijmUcUcUcFFFaZZZ22112121.)((参见教材p164)简记为)1(()()1()()1(mmmppmmUCFAZ对角阵）)12.7(且满足：(I)P≤m(II)COV(F.U)=0（即F与U是不相关的）(III)E(F)=0COV(F)=pppI)(11即F1,……FP不相关，且方差皆为1，均值皆为0(IV)E(U)=0COV(U)=Im即U1,……,Um不相关，且都是标准化的变量，假定z1,……,zm也是标准化的，但并不相互独立。式中A称为因子负荷矩阵，其元素(即(7.2-1)中各方程的系数)aij表示第i个变量(zi)在第j个公共因子Fj上的负荷，简称因子负荷，如果把zi看成P维因子空间的一个向量，则aij表示zi在坐标轴Fj上的投影。因子分析的目的就是通过模型(7.2-1)或)12.7(。以F代Z，由于一般有P＜m，从而达到简化变量维数的愿望。二、因子分析中的几个重要结论因子分析数学处理的最后结果通常以因子负荷矩阵的形式给出，这个矩阵的一般形式如下表所示。武汉纺织大学备课纸3因子负荷矩阵的一般格式测试变量因子负荷量公共度(h2)因子1因子2…因子p12...ma11a21...am1a12a22...am2……...…a1pa2p...amppjmjmpjjpjjiahahah122122221212平方和miiaS12121miiaS12222…miippaS122ijijpjjmiiash21212百分比mSp211mSp222…mSppp2pjjmSp12根据对模型(7.2-1)(或)12.7()的假定(I)——(IV)可以证明有如下结论：结论1因子负荷aij是Zi与Fj的相关系数，Ci是Zi与Ui的相关系数，即aij=jiFZP,Ci=jiUZP证明提示：将(7.2-1)的第i个方程两边乘以Fj，并求期望，运用假设条件即得aij=jiFZP；将(7.2-1)的第i个方程两边乘以Ui后求期望，由假设条件，可得Ci=iiUZP结论2PKjkikZZaaPji1(即zi,zj的相关系数为矩阵A中第i,j两行向量之内积)证明提示：将(7.2-1)中第i,j两个方程两边分别相乘后各取数学期望并利用假设条件可得结论。结论3矩阵A中第i行平方和记为21221ipkikicah证明提示：将(7.2-1)中第i个方程两边自乘再各自求期望并运用假设条件可得。结论4每个测试变量的方差由两部分组成：武汉纺织大学备课纸422)(1iiichZD证明提示：对(7.2-1)第i个方程两边分别求方差并运用假设条件，我们称2ic为测试变量Zi的特殊度，它表示Zi所含独特因子Ui对Zi方差所作的贡献。称2ih为Zi的共同度或公共度，它代表全部公共因子对变量Zi的方差所作的贡献，特别地2ika表示第k个公共因子Fk对Zi的方差所作的贡献。2ih越接近1，说明Zi的原始信息被所选P个公共因子解释得越好。例如：根据例1的因子负荷阵(教材P162表7-2)，932.023h，表明Z3有93.2%的信息被三个公共因子说明了。反之，当2ih靠近0时，说明公共因子对Zi的解释很少，共信息主要由其独特因子Ui描述。结论5A=(aij)中，第j列的平方和(j=1,……,p)mkkjjaS122代表公共因子Fj对所有原始变量Z1,Z2,……,Zm提供的方差贡献总和。证：由前述2kja的统计意义立得结论5。由上可知：2jS是衡量公因子Fj相对重要性的指标。百分比：%100)(212mSZDSjmiij表示Fj对所有测试变量的方差贡献率，其越大，Fj就越重要，一般选择几个公因子，就看所有公因子的方差贡献率之和(称为累计方差贡献率)达到我们预想的百分比有几个公因子。以上是对正态因子模型导出的因子负荷矩阵作分析的全部依据，在实用中，我们得到的仅是各Zi的一个容量为n的观测值，然后求出Z=(Z1,……,Zm)的样本相关系数矩阵R用R估计总体Z的相关系数，导出因子负荷阵，故称为R型因子分析。§7.3公共因子的求解要建立实际问题的因子模型，关键要根据样本数据估计因子负荷矩阵A，对A的估计方法很多，这里仅介绍霍特林(H.Hotelling)创立的，现使用较为普遍的主成份方法，(教材中称为主因子法)。只介绍方法，不作论证。武汉纺织大学备课纸5一、因子分析从测试变量的样本相关矩阵出发。设对变量Zi进行测试得容量为n的观测值)1(,,21mizzzinii—记jjiiijijLLLr其中nkkjkkikjkikijzznzzl1))((1nkkikikiiznzl1212)(1称rij为Zi，Zj的样本相关系数记mmmmmmmijrrrrrrrrrrR111)(3212232111312此为Z的样本相关矩阵，是一个m阶对称阵，再记对角阵mcccC000000011其中Ci为模型(12.7)所示。可以证明R与因子负荷阵A及C之间满足如下形式：2CAAR记R*=AA，则有R*=R-C2=22121111mjiijcrcrc称R*为剩余相关矩阵，R*与R相比，仅主对角线上的元素不同，后者，主对角线全是1，前者为221iihc由于严格估计2ih存在困难，实际计算中有时忽略独特因子的作用，即取Ci=0(i=1…m)，也就是令武汉纺织大学备课纸6mmijrAAR)(（7.3-3）这里nijkikijaar1上式就是求A的出发点，这种方法相当于预置12ih，在此情况下提取主因子的方法称为主分量分析，如预置的12ih，则提取主因子的方法称为主因子分析。二、求主因子解的步骤得到测试变量Z的样本相关矩阵R之后，求主因子解还需按以下几步进行。1、求R的特征根，即解方程：0111||21221112mmmmrrrrrrRE由R是非负定阵，解出的特征值都是非负的，将其非零特征值按从大到小排序并重新编码：λ1≥λ2≥……02、按预先规定所取的P个公共因子的累计方差贡献率达到的百分比(一般取85%)使85.011mipii的P即为所取的公因子数(可以证明mskmiik1第k个公共因子Fk的方差贡献率)。3、对选定的前P个特征值λ1≥λ2≥……≥λp＞0求相应的单位特征向量puuu,,21。为此求λj(1≤j≤p)的特征向量uj，即解方程组：vxxrxrxrxrxmjmmmmj)1(0)1(221112121(0)mijxxRE即（)便得),,(21mjjjjuuuu(见教材P169说明)再标准化便得ju4、写出因子负荷阵武汉纺织大学备课纸7pmpmmppppuuuuuuuuuA221121221211212111三、简例(教材P170略写)§7.4求出主因子解后的进一步分析一、因子旋转建立因子分析数学模型的目的不仅要找出公共因子并对变量进行分组，更重要的是要知道每个公共因子的意义，以便对实际问题作出科学分析。不难理解，由(7.3-3)出发解出的因子负荷阵是不唯一的，事实上，用一个正交矩阵T右乘A：RAAATTAATAT)())((即知A在正交变换T下也是因子负荷阵为此，当A的结构不便对主因子进行解释时，我们根据因子负荷阵的不唯一性，可用一个正交阵右乘A(即对A实施一个正交变换)由线性代数的知识，对A施行一个正交变换，对应坐标系就有一次施转。因此我们称这种变换A的方法为因子轴的旋转，我们的目的要使初始因子负荷阵A经一系列旋转后结构简化，即达到以下原则：1、每个公共因子只在少数几个测试变量上具有高负荷，其余负荷很小或至多中等大。2、每个测试变量仅在一个公共因子上有较大负荷，而在其余公共因子上的负荷较小或至多是中等大小。可见，旋转的目的是使每一个测试矢量在新的坐标轴上的射影尽可能向1和0两极分化。对因子负荷阵旋转的方法有多种，如正交旋转，斜交旋转等，这里只介绍常用的Kaiser提出的方差极大正交旋转法(Varimax法)，为说明该旋转法的原理首先考虑P=2的情形。设因子负荷阵2221212111mmaaaaaaA再按行计算公共度miaahiii,,122212考虑到各个变量Zi的公度之间的差异所造成的不平衡，需对A中元素作规格化处理，武汉纺织大学备课纸8即每行元素用每行的公共度除，为简便规格化后的A，仍记为A=)()(ijiijaha取正交阵cos,sinsin,cosT记ATbBij)(则211211212112111211cossin,sincoscossin,sincosmmmmmmbbbbaaaaaaaaB为使B达到结构简化，就须使旋转后的因子负荷阵B的两列元素的平方值向0和1两极分化(即两个公共因子对实测变量Z的贡献越分散越好，这实际上希望将变量Z1,Z2,……Zm分成两组，一组

概率统计统计-因子分析

免费阅读已结束，点击付费阅读剩下 ... 页

阅读已结束，您可以下载文档离线阅读

建筑环境与设备工程专业毕业设计(论文)指导书

施工组织设计1

北京京西风光旅游开发股份有限公司股权分置改革说明书（全文）(DOC 29页)

导流曝气生物滤池工艺

汽车二级维护作业表1

国立虎尾科技大学进修推广部(1)

探索台湾Linux发展现况(上)

管理基础工作诊断

环境监测-第7章

全国税收调查管理系统

相关文档

相关搜索