您好,欢迎访问三七文档
主成分分析§11.1什么是主成分分析及其基本思想问题的提出:在对某一事物进行实证分析研究中,为了更全面准确反映出事物的特征及其发展规律,往往考虑与其有关系的多个指标,因此会产生的问题:(1)为避免漏掉重要信息而考虑尽量多的指标(2)随着考虑指标的增多增加了问题的复杂性,并且多指标之间不可避免会造成信息的大量重叠(相关性),这种重叠有时甚至会掩盖事物的真正特征与内在规律。目的:涉及的变量(指标)少,得到的信息量要较多。§11.1什么是主成分分析及其基本思想主成分分析(PrincipalComponentAnalysis,PCA)也称为主分量分析,是一种数据降维技术,主成分分析正是研究如何将多个具有较强相关性指标化为少数几个综合指标来解释原来变量绝大多数信息的一种多元统计方法。把转化生成的综合指标称之为主成分。§11.1什么是主成分分析及其基本思想例1:某厂商要做一件上衣,需要测量很多尺寸,如身长,体重,袖长,胸围,腰围,肩宽,肩厚等十几项指标将多种指标综合成几个少数的综合指标,作为分类的型号,可综合成3项指标:一项反映长度的指标,一项反映胖瘦的指标,一项反映特体的指标。例2:医学研究中常常需要对患者的健康状况等进行评价,而这类评价要求内容全面,多个测量指标,最后产出综合评价结果。将多个指标进行综合总会面临以下问题:1.各指标量纲不同,不能直接相加;2.各指标间存在相关,直接相加产生信息重叠;3.相加时需要考虑各指标的权重。主成分分析的基本思想:设法将用原来众多具有一定相关性的指标(比如p个)重新组合成一组新的相互无关的综合指标来代替原来指标,同时根据实际需要,从中取几个较少的综合指标(主成分)尽可能多地反映原来指标的信息。§11.1什么是主成分分析及其基本思想注:通常数学上的处理:新的综合指标是原来p个指标的线性组合。指标“信息量”的表达用方差来表示,方差越大,表示该指标包含的信息越多。因此,在所有的线性组合中选取方差最大的F1作为第一主成分,将方差次大的F2作为第二主成分,且要求Cov(F1,)=0,保证F1中的信息不出现在F2中,以此类推,构造第三、第四,…第p主成分。§11.1什么是主成分分析及其基本思想§11.1什么是主成分分析及其基本思想实际工作中,挑选前几个最大的主成分代替原来的指标信息,虽然会损失一部分信息,但是由于我们抓住了主要矛盾,在实际问题的研究中得益比损失大,这种既减少了变量的数目又抓住了主要矛盾的做法有利于问题的分析和处理。原始指标的线性组合综合指标间不相关,且方差递减第一主成分,第二主成分,…第p主成分选取前几个最大的主成分代替原来指标的信息尽可能多地找出相关指标作为原始指标主成分分析流程图:§11.2主成分分析数学模型及几何解释111111211111212122121211211X(,)P,F=F=F=TppppppppppXXxaXaXaXaXaXaXaXaXaXaXaXaX设是P维随机向量,均值E(X)=,协差阵D(X)=,用X的P个向量,(即个指标向量)x作线性组合(即综合指标)为:上述方程组要求:§11.2主成分分析数学模型及几何解释22212j11211p111(1)11,(2)F(,,,1,)(3),FF,FFF,iipiijippppaaaipaFijijpFXXX且系数由下列原则决定:与不相关;是X的一切线性组合(系数满足上述方程组)中方差最大的,是与不相关的X一切线性组合中方差最大的,,是与,都不相关的X一切线性组合中方差最大的.§11.2主成分分析数学模型及几何解释用数学语言描述就是要求:1,(,)0(1)1(1,,)(2)1(,)0(1,,1)(3)()max()(1,,1)ijiiijiaaCovFFaaipiCovFFjiVarFVarxji当时,§11.2主成分分析数学模型及几何解释注:(1)数学模型中用线性组合基于两种原因:数学上容易处理和在实践中效果好。(2)每次主成分的选取使Var(Fi)最大,如果不加限制就可使Var(Fi)趋于无穷大,就没有意义了,常用的限制要求就是:2221211,iipiaaaip•1F2F••••••••••••••••••••••••••••••••••••主成分分析的几何解释平移、旋转坐标轴如果我们将xl轴和x2轴先平移,再同时按逆时针方向旋转角度,得到新坐标轴Fl和F2。Fl和F2是两个新变量。根据旋转变换的公式:112212FcossinFsincosxxxx1122FcossinFsincosxx旋转变换的目的是为了使得n个样品点在Fl轴方向上的离散程度最大,即Fl的方差最大。变量Fl代表了原始数据的绝大部分信息,在研究某问题时,即使不考虑变量F2也无损大局。经过上述旋转变换原始数据的大部分信息集中到Fl轴上,对数据中包含的信息起到了浓缩作用。§11.3总体主成分的推导及性质(1)主成分的推导:求主成分就是寻找X的线性函数使相应的方差尽可能地大,即使11221212,(,,,),(,,),ppppFaXaXaXaXaaaaXXXX设其中,aX()(())(())()()1VaraXEaXEaXaXEaXaEXEXXEXaaaaa达到最大值,且。§11.3总体主成分的推导及性质12p1211121212221121210,U(,)=UpppppppppppiiiipU设协差阵的特征根为相应的单位特征向量为,,,。令,由对角化定理可知:§11.3总体主成分的推导及性质2111211111112111111111111()()()()=()()()()pppiiiiiiiiiiipiippiiiiiiiiaaauaaaaaaaaUaUaUUaaaauuuuuuuuu因此,所以,而且,当时,有§11.3总体主成分的推导及性质11111ii11()(),()()()0,iiipjijijpijaaaaVarXVarXXXij因此,使Var(X)=达到最大值,且同理,而且,Cov()=§11.3总体主成分的推导及性质上述推导表明:X1,X2,…Xp的主成分就是以Σ的特征向量为系数的线性组合,它们互不相关,其方差为Σ的特征根。主成分的名词是按照特征根取值大小的顺序排列的。在解决实际问题时,一般不是取p个主成分,而是根据累计贡献率的大小取前K个。§11.3总体主成分的推导及性质定义:称第一主成分的贡献率为,由于,所以,因此,第一主成分的贡献率及时第一主成分方差在全部方差中的比值,这个比值越大,表明第一主成分综合X1,X2,…,Xp信息的能力越强。11pii11()VarF111i1()=()pipiiVarFVarF§11.3总体主成分的推导及性质前K个主成分的贡献率(累计贡献率)定义为:如果前k个主成分的贡献率达到85%,表明取前k个主成分基本包含了全部测量指标所具有的信息,这样既减少了变量的个数又便于对实际问题的分析和研究。11pkiiii§11.3总体主成分的推导及性质(2)主成分性质性质1性质21F(),=pDF的协差阵为对角阵,即其中11ppiiiii§11.3总体主成分的推导及性质性质3(,),,1,,,ikkkikiiiuFXikpF并把主成分与变量x的相关系数称为因子负荷量(或因子载荷量)。§11.3总体主成分的推导及性质性质42211(,)1(1,2,)ppkikkikkiiFXip§11.3总体主成分的推导及性质性质5此性质说明:上表中Fk对应的每一列关于各变量相关系数的加权平方和为λk即Var(Fk)。21(,)(1,,)piikikiFXkp§11.3总体主成分的推导及性质§11.4有关问题的讨论(一)从协差阵出发还是从相关阵出发求主成分从协差阵出发——求原始数据的协差阵的特征值特征向量的过程。从相关阵出发——求原始数据的相关阵(标准化数据的协差阵)的特征值特征向量的过程。从协差阵出发和从相关阵出发所求得的主成分一般来说是有差别的,而且这种差别有时候还很大。§11.4有关问题的讨论对于度量单位不同的指标或是取值范围彼此差异非常大的指标,一般不直接由其协差阵出发而应该考虑将数据标准化。原始数据标准化处理后倾向于各个指标的作用在主成分的构成中相等。数据标准化的过程实际上就是抹杀原始变量离散程度差异的过程,标准化后各变量方差相等均等于1,而实际上方差也是对数据信息的重要概括形式,即对原始数据进行标准化后抹杀了一部分重要信息,因此才使得标准化后各变量在对主成分构成中的作用趋于相等。§11.4有关问题的讨论因此从相关阵出发求主成分有其不足之处,实际问题中不可盲目将数据标准化处理,可分别从协差阵和相关阵出发进行求解并研究其结果的差别,看是否有显著差异并分析产生差异的原因,以确定用哪种结果更为可信。§11.4有关问题的讨论(二)主成分分析不要求数据来自正态总体与很多多元统计分析方法不同,主成分分析不要求数据来自于正态总体,主成分分析实际上就是对矩阵结构的分析,主要用到矩阵运算及矩阵对角化技术。§11.4有关问题的讨论(三)主成分分析与重叠信息主成分分析适用于变量之间存在较强相关性的数据,如果原始数据相关性较弱,运用主成分分析后不能起到很好的降维作用,即所得的各个主成分浓缩原始变量信息的能力差别不大。一般当原始数据大部分变量的相关系数都小于0.3时,运用主成分分析不会取得很好的效果。§11.4有关问题的讨论主成分分析对重叠信息的剔除是无能为力的。在实际选取初始变量进入分析时,对原始变量存在多重共线性的问题,应用主成分分析方法时要慎重。要考虑选取的初始变量是否合适,如果出于避免漏掉某些信息而特意选取了过多存在重叠信息的变量时,就要注意应用主成分分析得到的结果。如果所得样本协差阵的最小特征值接近于0,就意味着原始变量之间存在着多重共线性,即原始变量存在着不可忽视的重叠信息。§11.5由样本数据求主成分例1.测得10名幼儿的身高,体重如下表,求主成分。对象号x1体重(kg)x2身高(cm)116.3108213.088318.3111415.095511.988614.495713.594812.188913.3931013.595均数14.1395.5标准差1.9658477.9895771.求相关系数矩阵Rr11=r22=1,r12=r21=0.954719547.09547.01R•2.求R的特征根,解方程:019547.09547.01•即(1-λ)*(1-λ)-0.9547*0.9547=0•得两个根1.9547和0.0453,记为:•λ1=1.9547,λ2=0.04533.求特征向量Liλ1=1.9547所对应的特征向量用下式解:l11+0.9547l12=1.9547l110.9547l11+l12=1.9547l12l112+l122=1得l11=0.7071,l12=0.7071,第一主成分为:C1=0.7071X1+0.7071X2同样的方法,用λ2=0.0453可计算出第二主成分,此处略。§11.5由样本数据求主成分设样本观测矩阵为Xn*p,样本主成分计算步骤:1.将原始数据标准化(可选)2.求原始数据的协差阵Σ或相关阵R3.求Σ(或R)的
本文标题:主成分分析
链接地址:https://www.777doc.com/doc-4672816 .html