您好,欢迎访问三七文档
当前位置:首页 > 商业/管理/HR > 信息化管理 > 机器学习算法总结_PCA
第十章利用PCA来简化数据10.1引言多个变量之间常常存在一定的相关性。由于变量个数较多再加上变量之间的在实际问题中,我们经常会遇到研究多个变量的问题,而且在多数情况下,相关性,势必增加了分析问题的复杂性。举一个简单的例子,现在需要进行了一项关于美国国民经济的研究,现有美国1929一1938年各年的数据,从中可以得到了17个反映国民收入与支出的变量要素,例如雇主补贴、消费资料和生产资料、纯公共支出、净增库存、股息、利息、外贸平衡等等。要如何介绍美国国民收入与支出的情况?是否需要将这17个变量信息面面俱到的罗列出来呢?如果这样做,由于要素太多、信息量太过庞大,会增加问题的复杂性和分析难度,不容易让别人抓住主要信息,工作量也会大大提高。并且要素与要素之间可能存在相关关系,这样会导致信息重叠,分析偏误。对此问题我们需要对这些要素进行高度概括,从多个变量中综合为少数几个代表性变量,既能够代表原始变量的绝大多数信息,又互不相关,并且在新的综合变量基础上,可以进一步的统计分析,这时就需要进行主成分分析。美国的统计学家斯通(Stone)使用主成分分析的方法,用可直接测量的三个新变量总收入F1、总收入变化率F2和经济发展或衰退的趋势F3就取代了原来的17个变量,令人吃惊的是精度达到了97.4%。主成分分析方法能够在力保数据信息丢失最少的原则下,对这种多变量的数据表进行最佳综合简化,也就是说,对高维变量空间进行降维处理。很显然,在一个低维空间要比在一个高维空间处理问题容易得多。如此能够使问题得到更好的解决。10.2主成分分析的相关概念及基本原理10.2.1主成分分析的相关概念主成分分析(Principalcomponentanalysis)缩写为PCA。它是一种对数据进行分析的技术,最重要的应用是对原有数据进行简化。正如它的名字:主成分分析,这种方法可以有效的找出数据中最“主要”的元素和结构,去除噪音和冗余,将原有的复杂数据降维,揭示隐藏在复杂数据背后的简单结构。它的优点是简单,而且无参数限制,可以方便的应用与各个场合。因此应用极其广泛,从神经科学到计算机图形学都有它的用武之地。被誉为应用线形代数最价值的结果之一。主成分分析采取一种数学降维的方法,找出几个综合变量来代替原来众多的变量,使这些综合变量能尽可能地代表原来变量的信息量,而且彼此之间互不相关。这种将把多个变量化为少数几个互相无关的综合变量的统计分析方法就叫做主成分分析或主分量分析。主成分就是由原始变量综合形成的几个新变量。依据主成分所含信息量的大小称为第一主成分,第二主成分等等。主成分与原始变量之间的具有以下几种关系:(1)主成分保留了原始变量绝大多数信息。(2)主成分的个数大大少于原始变量的数目。(3)各个主成分之间互不相关。(4)每个主成分都是原始变量的线性组合。10.2.2主成分分析的基本原理主成分分析所要做的就是设法将原来众多具有一定相关性的变量,重新组合为一组新的相互无关的综合变量来代替原来变量。通常,数学上的处理方法就是将原来的变量做线性组合,作为新的综合变量,但是这种组合如果不加以限制,则可以有很多,应该如何选择呢?如果将选取的第一个线性组合即第一个综合变量记为1F,自然希望它尽可能多地反映原来变量的信息,这里“信息”用方差来测量,即希望)(1FVar越大,表示1F包含的信息越多。因此在所有的线性组合中所选取的1F应该是方差最大的,故称1F为第一主成分。如果第一主成分不足以代表原来p个变量的信息,再考虑选取2F即第二个线性组合,为了有效地反映原来信息,1F已有的信息就不需要再出现在2F中,用数学语言表达就是要求0),(21FFCov,称2F为第二主成分,依此类推可以构造出第三、四……第p个主成分。10.3主成分分析的作用概括起来说,主成分分析主要由以下几个方面的作用。1.主成分分析能降低所研究的数据空间的维数。即用研究m维的Y空间代替p维的X空间()mp,而低维的Y空间代替高维的x空间所损失的信息很少。即:使只有一个主成分1Y(即1m)时,这个1Y仍是使用全部X变量(p个)得到的。例如要计算1Y的均值也得使用全部x的均值。在所选的前m个主成分中,如果某个iX的系数全部近似于零的话,就可以把这个iX删除,这也是一种删除多余变量的方法。2.有时可通过因子负荷ija的结论,弄清X变量间的某些关系。3.多维数据的一种图形表示方法。我们知道当维数大于3时便不能画出几何图形,多元统计研究的问题大都多于3个变量。要把研究的问题用图形表示出来是不可能的。然而,经过主成分分析后,我们可以选取前两个主成分或其中某两个主成分,根据主成分的得分,画出n个样品在二维平面上的分布况,由图形可直观地看出各样品在主分量中的地位,进而还可以对样本进行分类处理,可以由图形发现远离大多数样本点的离群点。4.由主成分分析法构造回归模型。即把各主成分作为新自变量代替原来自变量x做回归分析。5.用主成分分析筛选回归变量。回归变量的选择有着重的实际意义,为了使模型本身易于做结构分析、控制和预报,好从原始变量所构成的子集合中选择最佳变量,构成最佳变量集合。用主成分分析筛选变量,可以用较少的计算量来选择量,获得选择最佳变量子集合的效果。10.4主成分分析的数学模型一个实际问题中,有p个要素,将其看作p个随机变量pxxx,,21,对p个变量进行线性组合,得到新的变量12,,...,()kFFFkp,新变量能够充分反应原始变量的信息,并且相互独立。对于一个样本资料,观测p个变量pxxx,,21,n个样品的数据资料阵为:npnnppxxxxxxxxxX212222111211pxxx,,21其中:pjxxxxnjjjj,2,1,21主成分分析就是将p个观测变量综合成为p个新的变量(综合变量),即ppppppppppxaxaxaFxaxaxaFxaxaxaF22112222121212121111即1111211221222212==AX...............ppppppppFaaaxFaaaxFFaaax(10-1)简写为:pjpjjjxxxF2211pj,,2,1要求模型满足以下条件:①jiFF,互不相关(ji,pji,,2,1,)②1F的方差大于2F的方差大于3F的方差,依次类推③.,2,1122221pkaaakpkk于是,称1F为第一主成分,2F为第二主成分,依此类推,有第p个主成分。主成分又叫主分量。这里ija我们称为主成分系数。上述模型可用矩阵表示为:AXF,其中pFFFF21pxxxX21pppppppaaaaaaaaaaaaA21212222111211A称为主成分系数矩阵。10.5主成分分析的几何解释10.5.1方差的意义方差是实际值与期望值之差平方的期望值。在概率论和数理统计中,方差用来度量随机变量和其数学期望(即均值)之间的偏离程度。在许多实际问题中,研究随机变量和均值之间的偏离程度有着重要意义。2222121[()()...()]1nxxxxxxSn(10-2)方差就是到中心的偏离程度,可以代表点的离散程度。(a)(b)图1点的离散示意图从图1(a)和(b)可以看出,(a)的离散程度大于(b),因此我们确定,(a)的方差大于(b),点更加离散。10.5.2PCA的几何解释假设有n个样品,每个样品有二个变量,即在二维空间中讨论主成分的几何意义。设n个样品在二维空间中的分布大致为一个椭园,如下图所示:图2主成分几何解释图将坐标系进行正交旋转一个角度,使其椭圆长轴方向取坐标1y,在椭圆短轴方向取坐标2y,旋转公式为cos)sin(sincos212211jjjjjjxxyxxy……………………………(10-3)nj2,1写成矩阵形式为:nnyyyyyyY2222111211XUxxxxxxnn2222111211cossinsincos(10-4)其中U为坐标旋转变换矩阵,它是正交矩阵,即有IUUUU,1,即满足1cossin22。经过旋转变换后,得到下图的新坐标:图3主成分几何解释图新坐标21yy有如下性质:(1)n个点的坐标1y和2y的相关几乎为零。(2)二维平面上的n个点的方差大部分都归结为1y轴上,而2y轴上的方差较小。1y和2y称为原始变量1x和2x的综合变量。由于n个点在1y轴上的方差最大,因而将二维空间的点用在1y轴上的一维综合变量来代替,所损失的信息量最小,由此称1y轴为第一主成分,2y轴与1y轴正交,有较小的方差,称它为第二主成分。旋转变换的目的:将原始数据的大部分信息集中到yl轴上,对数据中包含的信息起到了浓缩作用。优点:(1)可达到简化数据结构的目的。(2)新产生的综合变量Fl,F2具有不相关的性质,从而避免了信息重叠所带来的虚假性。10.6主成分分析的导出及主成分分析的步骤10.6.1主成分的导出根据主成分分析的数学模型的定义,要进行主成分分析,就需要根据原始数据,以及模型的三个条件的要求,如何求出主成分系数,以便得到主成分模型。这就是导出主成分所要解决的问题。1、根据主成分数学模型的条件①要求主成分之间互不相关,为此主成分之间的协差阵应该是一个对角阵。即,对于主成分,AXF其协差阵应为,AXAXAXAXAXVarFVar)()()()((10-5)=p212、设原始数据的协方差阵为V,如果原始数据进行了标准化处理后则协方差阵等于相关矩阵,即有,XXRV(10-6)3、再由主成分数学模型条件③和正交矩阵的性质,若能够满足条件③最好要求A为正交矩阵,即满足IAA(10-7)于是,将原始数据的协方差代入主成分的协差阵公式得AARAXAXFVar)((10-8)AARAAR(10-9)展开上式得pppppppppppppppppppaaaaaaaaaaaaaaaaaarrrrrrrrr21212221212111212221212111212222111211展开等式两边,根据矩阵相等的性质,这里只根据第一列得出的方程为:0)(0)(0111221111212122112111121211111pppppppppararararararararar为了得到该齐次方程的解,要求其系数矩阵行列式为0,即0121212221112111pppppprrrrrrrrr01IR显然,1是相关系数矩阵的特征值,paaaa112111,,是相应的特征向量。根据第二列、第三列等可以得到类似的方程,于是i是方程0IR(10-10)的p个根,i为特征方程的特征根,ja是其特征向量的分量。4、下面再证明主成分的方差是依次递减设相关系数矩阵R的p个特征根为p21,相应的特征向量为japppppppaaaaaaaaaaaaA21212222111211相对于1F的方差为111111)(aRaaXXaFVar同样有:iiFVar)(,即主成分的方差依次递减。并且协方差为:jij
本文标题:机器学习算法总结_PCA
链接地址:https://www.777doc.com/doc-2325115 .html