您好,欢迎访问三七文档
当前位置:首页 > 商业/管理/HR > 公司方案 > 41数学建模 聚类分析因子分析实例
多元统计分析中的降维方法在四川省社会福利中的应用由于计算机的发展和日益广泛的使用,多元分析方法也很快地应用到社会学、农业、医学、经济学、地质、气象等各个领域。在国外,从自然科学到社会科学的许多方面,都已证实了多元分析方法是一种很有用的数据处理方法;在我国,多元分析对于农业、气象、国家标准和误差分析等许多方面的研究工作都取得了很大的成绩,引起了广泛的注意。在许多领域的研究中,为了全面系统地分析问题,对研究对象进行综合评价,我们常常需要考虑衡量问题的多个指标(即变量),由于变量之间可能存在着相关性,如果采用一元统计方法,把多个变量分开,一次分析一个变量,就会丢失大量的信息,研究结果也会偏差很大。因此需要采用多元统计分析的方法,同时对所有变量的观测数据进行分析。多元统计分析就是一种同时研究多个变量之间的相互关系,经过对变量的综合处理,充分提取变量之间的信息,进行综合分析和评价的统计方法。多元统计分析法主要包括降维、分类、回归及其他统计思想。一.多元统计分析方法中降维的方法1.概述多元统计分析方法是同时对多个变量的观察数据做综合处理和分析。在不损失有价值信息的情况下,简化观测数据或数据结构,尽可能简单地将被研究对象描述出来,使得对复杂现象的解释变得更容易些。同时,采用多元统计分析中的聚类分析或判别分析可以对变量或样品进行分类与分组。根据所测量的特征和分类规则将一些“类似的”对象或变量分组。多元统计分析也可以研究变量间依赖性。即对变量间关系的本质进行研究。是否所有的变量都相互独立?还是一个变量或多个变量依赖于其他变量?它们又是怎样依赖的?通过观测变量数据的散点图,我们可以建立多元回归统计模型,确定出变量之间具体的依赖关系,进而可以根据某些变量的观测值预测另一个或另一些变量的值对事物现象的发展作预测。最后我们需要构造假设,并对所建立的以多元总体参数形式陈述的多种特殊统计假设进行检验。在多元统计分析方法中数据简化或结构简化,实质上就是数学中的降维方法。多元统计分析中的降维方法主要包括聚类分析、判别分析、主成分分析、因子分析、对应分析和典型相关分析等几种方法。其中主成分分析和因子分析是在作综合评价方面应用最广泛、较为有效的方法。本文主要介绍这两种多元统计分析方法的应用。2主成分分析2.1主成分分析的基本思想在大部分实际问题中,需要考察的变量多,变量之间是有一定的相关性的,主成分分析就是以损失很少部分信息为代价,保留绝大部分信息的前提下,将原来众多具有一定线性相关性的p个指标压缩成少数几个互不相关的综合指标(主成分),并通过原来变量的少数几个的线性组合来给出各个主成分的具有实际背景和意义的解释。由于主成分分析浓缩了众多指标的信息,降低了指标的维度,从而简化指标的结构,深刻反映问题的内在规律。2.2主成分分析的数学模型设对某一事物的研究涉及指标(变量):12,,,PXXX,,这p项指标构成p维的随机向量12,,,PXXXX,其均值和协方差矩阵分别是X,。对X进行线性变换,原来的变量12,,,PXXX的线性组合可以形成新的综合变量,用Y表示,满足:11111221221122221122ppppppppppYuXuXuXYuXuXuXYuXuXuX矩阵表示为:YUX,其中12,,,pYYYY,1112112pppppuuuUuuu,12,,,pXXXX由于不同的线性变换得到的综合变量Y的统计特性不同,为了达到较好的效果,我们希望iiYuX的方差尽可能大且新的综合变量iY之间相互独立。由以下原则来确定新的综合变量iY:(1)222121iiiiipuuuuu(1,2,,)ip;(2)iY与jY相互独立,即无重复信息cov(,)0ijYY(;,1,2,,)ijijp;(3)1Y是12,,,PXXX的一切线性组合(系数满足上述方程组)中方差最大的,2Y是与1Y不相关的12,,,PXXX的一切线性组合中方差最大的,pY与121,,,pYYY都不相关的12,,,PXXX的一切线性组合中方差最大的。在实际应用时,通常挑选前几个方差比较大的主成分,虽然这样做会丢失一部分信息,但它使我们抓住了主要矛盾进行深入分析,并从原始数据中进一步提出了某些新的信息,因而在某些实际问题的研究中得益比较大,这种既减少了变量的个数又抓住了主要矛盾的做法有利于问题的分析和处理。2.3总体主成分的导出及性质在实际求解主成分时,常常是从原始变量的协方差矩阵或相关矩阵的结构出发,而从两个出发点求解出的主成分不同。2.3.1从协方差矩阵出发求解主成分性质1:设矩阵AA,将A的特征值12,,,n依大小顺序排列,不妨设12n,12,,,p为矩阵A各特征值对应的标准正交特征向量,则对任意向量x有10maxxxAxxx,0minnxxAxxx性质2:设随机向量12(,,,)pXXXX的协方差矩阵为,12p为的特征值,12,,,p为矩阵各特征值对应的标准正交向量,则第i个主成分为:1122iiipipYXXX(1,2,,)ip,此时var()iiiiY,cov(,)0ijiiYY。由以上性质,我们把原始变量12(,,,)pXXXX的协方差矩阵的非零特征值120p对应的标准化特征向量12,,,p分别作为系数向量,即11YX,22YX,……,ppYX分别为12(,,,)pXXXX的第一主成分、第二主成分,……,第p主成分的充要条件是:(1)YuX,uuI,即u为p阶正交阵;(2)Y的分量12,,,pYYY之间相互独立;(3)Y的p个分量12,,,pYYY方差依次递减。于是随机向量12(,,,)pXXXX与随机向量12,,,pYYYY之间存在关系式:11111211121222222212ppppppppppuuuuXXuuuXXuYuXXuuuXXu由于在无论的各特征值是否存在相等的情况,对应的标准化特征向量12,,,p总是存在,所以总是可以找到对应的各特征值的相互正交的特征向量。故将主成分的求解转换为求解原始变量12(,,,)pXXXX的协方差阵的特征值和特征向量。性质3:第k个主成分kY的方差贡献率为1kkpiia(1,2,,)kp,反映主成分kY提取原始变量总信息的百分比。性质4:主成分12,,,kYYY的累积贡献率为11()kiipiik(kp),反映主成分12,,,kYYY解释原始变量信息的百分比。性质5:1122iiipipYrXrXrX,其中211pjijr,称jir为主成分iY在原始变量jX上的载荷。它度量了jX对iY的重要程度。性质6:第i个主成分iY与原始变量jX的相关系数(,)ijYX称为因子负荷量,表示主成分iY中包含原始变量jX信息的百分比,它与载荷jir成正比。2.3.2从相关矩阵出发求解主成分为了消除原始变量不同量纲与数量级的影响,对原始变量作标准化变换:令iiiiiXZ,1,2,,ip,其中i,ii分别表示变量iX的期望和方差。令111222000000ppB则原始变量进行标准化变换为:112()()ZBX显然有1211112211221211cov()()()1ppppZBBR设求解出相关阵R的特征值与对应的标准正交特征向量,则求解出的主成分与原始变量的关系式为:112()()iiiYZBX,1,2,,ip2.4样本主成分的导出在实际研究工作中,总体协方差阵与相关阵R通常是未知的,于是需要通过样本数据来估计。设有n个样品,每个样品有p个指标,这样共得到np个数据,原始资料矩阵为:111212122212ppnnnpxxxxxxXxxx记11()()1nkiikiikSxxxxn,11nikikxxn,ijppRr,ijijiijjsrss,1,2,,ip样本协方差矩阵S为总体协方差阵的无偏估计,样本相关阵R为总体相关阵的估计。若原始资料矩阵X是经过标准化处理的,则由矩阵X求得的协方差阵S就是相关矩阵R。所以根据相关阵R来求解主成分。根据总体主成分的定义,主成分12,,,pYYYY的协方差是:cov()cov()YuXuuu其中为对角矩阵12000000p假定资料矩阵X为已经作了标准化处理后的数据矩阵,则可以由相关矩阵R代替协方差矩阵,则上式可表示为:uRuRuu即1112111121111211212222122221222212121200ppppppppppppppppppprrruuuuuurrruuuuuurrruuuuuu整理为齐次方程组为11111121211211122212211112121()0()0()0pppppppppprururururururururu即111121212222120ppppppprrrrrrRIrrr即所求的新的综合变量(主成分)的方差i(1,2,,)ip是特征方程组0RI的p个根,为相关矩阵的特征值,相应的各个iju是其特征向量的分量。特征值120p,其相应的特征向量记为12,,,p,则相对于iY的方差为var()var()iiiYX。且协方差为:cov(,)cov(,)0ijijYYXX由此可有新的综合变量(主成分)12,,,pYYY彼此不相关,并且iY的方差为i,则11YX,22YX,……,ppYX分别为12(,,,)pXXXX的第一主成分、第二主成分,……,第p主成分。主成分的方差贡献就等于R的相应特征值。利用样本数据求解主成分的过程就转化为求解相关阵R或协方差阵S的特征值和特征向量的过程。2.5主成分分析的步骤2.5.1将原始变量进行标准化处理iiiiiXZ;2.5.2计算标准化指标的相关系数矩阵R2.5.3求解相关系数矩阵R的特征向量()ijppuu和特征值120p;2.5.4计算各个主成分的方差贡献率k及累积贡献率()k;2.5.5确定主成分的个数;通常根据实际问题的需要由累计贡献率()85%k的前k个成分来代替原来p个变量的信息,或选取所有特征值大于1的成分作为主成分,也可根据特征值的变化来确定,即根据SPSS输出的碎石图的转折点来决定选取主成分的个数。2.5.6对确定出的主成分作出实际意义的解释;2.5.7利用所确定出的主成分的方差贡献率计算综合评价值,从而对被评价对象进行排名和比较。综合得分=(各主成分得分各主成分所对应的方差贡献率)3因子分析3.1因子分析的基本思想因子分析是根据相关性大小把原始变量进行分组,使得同组内的变量之间相关性高,而不同组的变量之间的相关性低。每组变量代表一个基本结构(即公共因子),并用一个不可观测的综合变量来表示。对于所研究的某一具体问题,原始变量分解为两部分之和。一部分是少数几个不可观测的公共因子的线性函数,另一部分是与公共因子无关的特殊因子。3.2因子分析的数学模型设有p个指标,则因子分析数学模型为:11111221221122221122pppppppppp
本文标题:41数学建模 聚类分析因子分析实例
链接地址:https://www.777doc.com/doc-4201495 .html