您好,欢迎访问三七文档
主成分分析问题的提出在现实问题中,很多现象的描述都涉及众多变量。变量多虽然能够对现象进行较全面的描述,但是往往也会给分析问题和解释问题带来一定的困难,增加计算的复杂性。一般来说,每个变量都提供了一定的信息,但是其重要重要程度有所不同,而且某些信息出现重叠。因为人们希望对这些信息加以简化处理,用极少数互不相关的新变量来反应元变量所提供的绝大部分信息,使分析处理问题的过程得以简化。问题的提出实例1.对一个人身材的描述:身高、臂长、腿长、肩宽、胸围、腰围、臀围。但是人们购买衣服的时候一般只需用长度和肥瘦两个指标就可以了。问题的提出实例2.美国统计学在1947年做了关于国民经济的研究。通过调查数据提取了17个反应国民收入和支出的变量要素,如:雇主补贴、消费资料、股息、纯公共支出等。在进行主成分分析后,以97.4%的精度提取了3个新的变量来反映原有的17个变量,分别是总收入,总收入变化率,经济发展或衰退趋势。而现实中实际可以测量的总收入、总收入变化率和时间t与这三个变量的相关性分别达到了0.995、0.948和-0.836。主成分分析的基本思想主成分分析(principalcomponentanalysis)由Hotelling于1933年首次提出。1、利用降维的思想在保留原始变量尽可能多的信息的前提下,把多个指标转化为几个综合指标(主成分)的多元统计方法。2、将有一定线性相关性的多个指标,重新组合成互不相关的综合指标(主成分)来代替原有指标。需要解决的问题用什么来表示一个变量所反映的信息量新变量是原始变量的什么函数关系——线性函数1F2F****1X2X**********************************方差用方差(离散程度)反映信息量所构造的新的变量代表了原来数据大部分的信息。与正交(不相关),不存在信息重叠的现象。抓住了主要矛盾,简化了系统结构。F1F2F1FpXXXX21ppijXD)()(,记:个变量为:假设原始的pXXXp,,,21XaY令:新变量关键:求向量a第一主成分使得维常数向量求,1apmaxmax1aa=1aa=1DaX=DaX=aa。的第一主成分为原始变量称)1(1111aaXXaY第二主成分aaXaDXaDaaaaaaaamaxmax0101211地大,即满足:量尽可能不相关,且包含的信息与,使其求第二个新变量1222)1(YaaXa的第二主成分。为原始变量称XXaY22第j个主成分aaXaDXaDjjaaaaaaaaaaaajmaxmax0010011111可能地大,即满足:量尽不相关,且包含的信息,使其与个新变量求第121,,,)1(jjjjYYYaaXaj个主成分。的第为原始变量称jXXaYjj少。不相关,且方差依次减,它们两两个主成分,可得到按前面的步骤依次类推pyyyp,,,211120(1,2,,),,,()ppjjjjjjjjjpjpIXjYaYXDY定理设的个顺序特征值为,,其中是对应于的标准正交特征向量,则的第个主成分表达式的系数向量即且。“总方差”的不变性piiipjjtr1111112,,,,pjjjjpkjjjjkYkYYY定义称为主成分的贡献率称为前个主成分的累积贡献率。贡献率的解释能力越强。也就是说对原始变量的能力越强,“综合”的贡献率越大,说明其主成分ppjXXXXXXY,,,,,,2121贡献率的含义原始变量与主成分的函数关系XXXYYYpp11,从而有:YX原始变量与主成分的函数关系(续)ppppppppYYYXXX2121222211121121上的载荷。在称为对各原始变量的影响。列反映了主成分的第的影响,行反映了各主成分对的第jiijjiYXYjXi原始变量与主成分的函数关系(续)iiiXDpjjijYD12pjijj122121iiijjjiiijj原始变量与主成分的相关系数jijijiYVarXVarYXYX,cov),(p2()ijiiji=1X,Y因子负荷量原始变量与主成分的函数关系(续)pkkpppkkpXXXYYYXXX212121222211121121始变量的信息,此时成分便不能完全反映原个主个主成分,则这(如果仅选择前kpkk)原始变量与主成分的函数关系(续)iXDkjjijYD12kjijj12pkjijjkjijjiiiiiXXX1212所失去的方差为:时,代替用2112,,,kijijiijkikYYYiX定义称为前个主成分对第个原始变量的贡献率。主成分对单个原始变量的贡献率的解释能力。即反映对的多少信息,个原始变量了第提取个主成分说明前iikiXXiYYYk,,,21基于总体相关矩阵的主成分分析标准化原始变量2121DD11121212112pppp总体相关矩阵pjjpjjpiiYDtrzD111.3主要结果XDj21jjYD.2ZYjj.1pppppjjXX11111p主要结果(续)2kijijj16.νλγ对原始变量进行标准化的意义一般来说,一些原始变量具有不同的量纲.当变量取值范围彼此差异很大或度量单位不同时,应考虑将其标准化;协方差矩阵受变量的量纲影响比较大;协方差矩阵影响原始变量在主成分上的载荷。基于样本数据的主成分分析,ˆX,ˆSRˆ基于样本相关阵作主成分分析的步骤步骤(续)XXDYsjj21pppppjjjsXXsXXsXX2222211111kj,,2,14.分析每一个主成分的实际含义,以便对实际问题作进一步的分析。ScreePlotComponentNumber54321Eigenvalue3.02.52.01.51.0.50.0碎石图
本文标题:主成分分析
链接地址:https://www.777doc.com/doc-3398079 .html