您好,欢迎访问三七文档
当前位置:首页 > 商业/管理/HR > 信息化管理 > eviews中主成分分析和因子分析ppt详解
1主成分分析和因子分析在建立多元回归模型时,为了更准确地反映事物的特征,人们经常会在模型中包含较多相关解释变量,这不仅使得问题分析变得复杂,而且变量之间可能存在多重共线性,使得数据提供的信息发生重叠,甚至会抹杀事物的真正特征。为了解决这些问题,需要采用降维的思想,将所有指标的信息通过少数几个指标来反映,在低维空间将信息分解为互不相关的部分以获得更有意义的解释。本章介绍的主成分分析和因子分析可用于解决这类问题。2主成分分析(principalcomponentsanalysis,简称PCA)是由霍特林(Hotelling)于1933年首先提出的。它通过投影的方法,实现数据的降维,在损失较少数据信息的基础上把多个指标转化为几个有代表意义的综合指标。1主成分分析31.1主成分分析的基本思想假如对某一问题的研究涉及p个指标,记为X1,X2,…,Xp,由这p个随机变量构成的随机向量为X=(X1,X2,…,Xp),设X的均值向量为,协方差矩阵为。设Y=(Y1,Y2,…,Yp)为对X进行线性变换得到的合成随机向量,即(1.1)设i=(i1,i2,…,ip),(),A=(1,2,…,p),则有(1.2)ppppppppXXXYYY2121222211121121AXYpi,,2,14且(1.3)由式(1.1)和式(1.2)可以看出,可以对原始变量进行任意的线性变换,不同线性变换得到的合成变量Y的统计特征显然是不一样的。每个Yi应尽可能多地反映p个原始变量的信息,通常用方差来度量“信息”,Yi的方差越大表示它所包含的信息越多。由式(1.3)可以看出将系数向量i扩大任意倍数会使Yi的方差无限增大,为了消除这种不确定性,增加约束条件:pjiYYpiYjijiii,,2,1,),cov(,,2,1)var(ΣααΣααi1iaai5为了有效地反映原始变量的信息,Y的不同分量包含的信息不应重叠。综上所述,式(1.1)的线性变换需要满足下面的约束:(1),即,i=1,2,…,p。(2)Y1在满足约束(1)即的情况下,方差最大;Y2是在满足约束(1),且与Y1不相关的条件下,其方差达到最大;……;Yp是在满足约束(1),且与Y1,Y2,…,Yp-1不相关的条件下,在各种线性组合中方差达到最大者。满足上述约束得到的合成变量Y1,Y2,…,Yp分别称为原始变量的第一主成分、第二主成分、…、第p主成分,而且各成分方差在总方差中占的比重依次递减。在实际研究工作中,仅挑选前几个方差较大的主成分,以达到简化系统结构的目的。122221ipiiaaa1iaai61.2总体主成分求解及其性质1.1节中提到主成分分析的基本思想是考虑合成变量的方差大小及其对原始变量波动(方差)的贡献大小,而对于原始随机变量X1,X2,…,Xp,其协方差矩阵或相关矩阵正是对各变量离散程度和相关程度的度量。在实际求解主成分时,一般从原始变量的协方差矩阵或相关矩阵的结构分析出发。71.从协方差矩阵出发求解主成分设1是任意p1向量,求解主成份就是在约束条件下,求X的线性函数使其方差达到最大,即达到最大,且,其中是随机变量向量X=(X1,X2,…,Xp)的协方差矩阵。设1≥2≥…≥p≥0为的特征值,e1,e2,…,ep为矩阵各特征值对应的标准正交特征向量,则对于任意的ei和ej,有(1.4)且(1.5)Xa11Y1iaai111)var(ΣaaY1iaaijijiji,0,1ee,1piiiieeΣIeeipii18因此(1.6)当1=e1时有(1.7)此时达到最大值为1。同理有并且(1.8)1111111111111)()(IaaaeeaaeeaΣaapiiipiiii111111111eeeeΣee111)var(ΣaaYii)var(Xepjijijjiji,,2,1,0),cov(eeΣeeXeXe9由上述推导得(1.9)可见Y1,Y2,…,Yp即为原始变量的p个主成份。因此,主成分的求解转变为求X1,X2,…,Xp协方差矩阵的特征值和特征向量的问题。XeXeXeppYYY,,,2211102.主成份的性质性质1Y的协方差矩阵为对角阵,即(1.10)性质2设=(ij)p×p是随机变量向量X的协方差矩阵,可得即p00)var(1ΛYpiipiiYX11)var()var(piipiii1111由此可见,主成分分析是把p个随机变量的总方差分解为p个不相关随机变量的方差之和1+2+…+P,则总方差中属于第i个主成分(被第i个主成分所解释)的比例为(1.12)称为第i个主成分的贡献度。定义(1.13)称为前m个主成分的累积贡献度,衡量了前m个主成份对原始变量的解释程度。pi21pmpiimjj1112性质3记第k个主成分Yk与原始变量Xi的相关系数为r(Yk,Xi),称为因子载荷,或者因子负荷量,则有(1.14)pkieeXYXYXYriikkiiikkikikikik,,2,1,)var()var(),cov(),(133.从相关矩阵出发求解主成分在实际应用时,为了消除原始变量量纲的影响,通常将数据标准化。考虑下面的标准化变化,令(1.15)其中i,ii分别表示随机变量Xi的期望与方差,则piXZiiiii,,2,1,1)var(,0)(iiZZE14原始变量的相关矩阵就是原始变量标准化后的协方差矩阵,因此,由相关矩阵求主成分的过程与由协方差矩阵求主成分的过程是一致的。如果仍然采用(λi,ei)表示相关矩阵R对应的特征值和标准正交特征向量,根据式(1.9)有:(1.17)由相关矩阵求得的主成分仍然满足性质1~3。性质3可以进一步表示为:(1.18))()(12/1μXVeZeiiiYpi,,2,1pkieZYrkkiik,,2,1,,),(151.3样本的主成分1.样本统计量在实际工作中,我们通常无法获得总体的协方差矩阵和相关矩阵R。因此,需要采用样本数据来估计。设从均值向量为,协方差矩阵为的p维总体中得到的n个样本,且样本数据矩阵为(1.19)npnnppnxxxxxxxxx21222211121121),,,(xxxx16则样本协方差矩阵为:(1.20)其中:(1.21)样本相关矩阵为:(1.22)样本协方差矩阵S是总体协方差矩阵的无偏估计量,样本相关矩阵是总体相关矩阵R的估计量。ppijnkkksn)())((111xxxxSjkjnkikiijnkkiipxxxxnspixnxxxx1121)((11,,2,11),,(x,)(ˆppijrRjjiiijijsssrRˆ172.样本主成份及其性质由于采用相关矩阵和协方差矩阵求解主成分的过程基本一致,因此本节仅介绍基于样本相关矩阵求解主成分的过程。设样本相关矩阵的特征值为,且与特征值相对应的标准正交特征向量为,根据式(1.17)第i个样本主成分可表示为:(1.23)而且(1.24)(1.25)Rˆpˆ,,ˆ,ˆ210ˆˆˆ21ppeeeˆ,,ˆ,ˆ21pipiieeexxxxeyiiˆˆˆˆ2211pi,,2,1pkikik,,2,1,,,0),cov(yyipii,,2,1,ˆ)var(iy18且由式(1.16)和性质2可得(1.26)则第i个样本主成分的贡献度为,前m个样本主成份的累计贡献度为另外(1.27)piiipiisp11ˆiikkiiksexyrˆˆ),(piˆpmii/ˆ1193.主成份个数的确定主成分分析的目的之一是减少变量的个数,但是对于应保留多少个主成分没有确切的回答。通常需要综合考虑样本总方差的量、特征值的相对大小以及各成分对现实的阐述。一般所取m使得累积贡献率达到85%以上为宜。另一个比较常用的可视的方法是碎石图,首先将特征值按照从大到小的顺序进行排列,碎石图是特征值与相应序号i的(i,)图形,其中横轴表示序号,纵轴表示特征值。为了确定主成分的合适个数,选择碎石图斜率变化较大的拐弯点,通常在此序号之后的特征值取值比较小,则此序号作为主成分的个数。例如,图1所示的碎石图在i=2处拐弯,则m选择2。第三个经验的判断方法是只保留那些方差大于1的主成分。iˆiˆiˆ20例1宏观经济景气波动的主成分分析本例从一批对景气变动敏感,有代表的指标中筛选出5个反应宏观经济波动的一致指标组:工业增加值增速(iva)、工业行业产品销售收入增速(sr)、固定资产投资增速(if)、发电量增速(elec)和货币供应量M1增速(m1),样本区间从1998年1月~2006年12月,为了消除季节性因素和不规则因素,采用X-12方法进行季节调整。常用的方法是美国商务部采用的计算合成指数CI的方法。特别的,本例利用主成分分析降维的思想,提取主成分(PCA),并与合成指数CI的结果进行比较。213.1EViews软件中主成分分析的计算本节以例1的数据为例,介绍EViews软件中主成分分析的实现过程。首先将所涉及的变量建成一个组(g1),选择组菜单的View/PrincipalComponents...,出现如图6所示的窗口。在窗口中有两个切换钮:第一个钮标着Components,第二个钮标着Calculation,控制着组中各序列离差矩阵的计算和估计。默认的,EViews完成主成分分析使用普通的(Pearson)相关矩阵,也可以在这个菜单下重新设定主成分的计算。221.Components选择纽Components按钮用于设定显示主成分和保存方差的特征值和特征向量。在Display对话框中可以以表的形式显示特征值和特征向量,或者按照特征值的大小以线性图的形式显示,或者是载荷、得分的散点图,或者两个都显示(biplot)。选择不同的显示方式,对话框中其余的内容也会发生相应的改变。23图6主成分估计对话框(1)2425表头描述了观测值的样本区间、计算离差矩阵的方法以及保留成分的个数(在这个例子中显示了所有的5个主成分)。表的第一部分概括了特征值(Value)、相应特征值与后一项的差(Difference)、对总方差的累积解释比例(CumulativeProportion)等等。由于上述结果的计算采用相关矩阵,所以5个特征值之和等于5。第一个成分占总方差的72.94%,第二个成分占总方差的19.22%。前两个成分占总方差的92.16%。表的第二部分描述了线性组合的系数,第一个主成分(标为“PC1”)大约等于所有5个一致指标的线性组合,它可以解释为一般的经济景气指数。输出的第三部分表示计算的相关矩阵。26第1主成分第2主成分第3主成分第4主成分第5主成分特征向量固定资产投资增速(if)0.449-0.3670.6960.2000.374工业增加值增速(iva)0.510-0.153-0.0780.312-0.783货币供应量增速(m1r)0.2040.9130.2850.2080.009产品销售收入增速(sr)0.4900.023-0.6540.2930.496发电量增速(elec)0.5080.088-0.020-0.857-0.026特征值3.6030.9880.2700.0870.051贡献率0.7210.1970.0540.0180.01累积贡献率0.7210.9180.9720.9901.000表1一致指标组的主成分分析结果
本文标题:eviews中主成分分析和因子分析ppt详解
链接地址:https://www.777doc.com/doc-5148115 .html