您好,欢迎访问三七文档
当前位置:首页 > 商业/管理/HR > 资本运营 > 1第一章 主成分分析
2020/7/10第一章主成分分析江西理工大学理学院2020/7/10主成分分析的重点1、掌握什么是主成分分析;2、理解主成分分析的基本思想;3、理解主成分求解方法:协方差矩阵与相关系数矩阵的差异;4、掌握运用数学软件求解主成分;5、对软件输出结果进行正确分析.江西理工大学理学院2020/7/10一、主成分分析的基本思想主成分分析:将原来较多的指标简化为少数几个新的综合指标的多元统计方法。主成分:由原始指标综合形成的几个新指标。依据主成分所含信息量的大小成为第一主成分,第二主成分等等。江西理工大学理学院2020/7/10主成分分析得到的主成分与原始变量之间的关系:1、主成分保留了原始变量绝大多数信息。2、主成分的个数大大少于原始变量的数目。3、各个主成分之间互不相关。4、每个主成分都是原始变量的线性组合。江西理工大学理学院2020/7/10主成分分析的运用:1、对一组内部相关的变量作简化的描述2、用来削减回归分析或群集分析(Cluster)中变量的数目3、用来检查异常点4、用来作多重共线性鉴定5、用来做原来数据的常态检定江西理工大学理学院2020/7/10二、数学模型假设我们所讨论的实际问题中,有p个指标,我们把这p个指标看作p个随机变量,记为X1,X2,…,Xp,主成分分析就是要把这p个指标的问题,转变为讨论p个指标的线性组合的问题,而这些新的指标F1,F2,…,Fk(k≤p),按照保留主要信息量的原则充分反映原指标的信息,并且相互独立。江西理工大学理学院2020/7/10这种由讨论多个指标降为少数几个综合指标的过程在数学上就叫做降维。主成分分析通常的做法是,寻求原指标的线性组合Fi。ppppppppppXuXuXuFXuXuXuFXuXuXuF22112222112212211111江西理工大学理学院2020/7/10满足如下的条件:1、每个主成分的系数平方和为1。即2、主成分之间相互独立,即无重叠的信息。即3、主成分的方差依次递减,重要性依次递减,即F1,F2,…,Fp分别称为原变量的第一、第二、…、第p个主成分。122221piiiuuupjijiFFCovji,,,,,,),(210)()(21pFVarFVarFVar)(江西理工大学理学院2020/7/10了解了主成分分析的基本思想、数学模型后,问题的关键:1、如何进行主成分分析?(主成分分析的方法)基于相关系数矩阵还是基于协方差矩阵做主成分分析。当分析中所选择的经济变量具有不同的量纲,变量水平差异很大,应该选择基于相关系数矩阵的主成分分析。2、如何确定主成分个数?主成分分析的目的是简化变量,一般情况下主成分的个数应该小于原始变量的个数。关于保留几个主成分,应该权衡主成分个数和保留的信息。3、如何解释主成分所包含的经济意义?江西理工大学理学院2020/7/10四、总体主成分的求解及其性质矩阵知识回顾:(1)特征根与特征向量A、若对任意的k阶方阵C,有数字与向量满足:,则称为C的特征根,为C的相应于的特征向量。B、同时,方阵C的特征根是k阶方程的根。(2)任一k阶方阵C的特征根的性质:C0ICj对角线上的元素之和矩阵CCtrkjj)(1江西理工大学理学院2020/7/10(3)任一k阶的实对称矩阵C的性质:A、实对称矩阵C的非零特征根的数目=C的秩B、k阶的实对称矩阵存在k个实特征根C、实对称矩阵的不同特征根的特征向量是正交的D、若是实对称矩阵C的单位特征向量,则若矩阵,是由特征向量所构成的,则有:jjjjC'jkjjC001'江西理工大学理学院2020/7/10主成分分析的目标:1、从相关的X1,X2,…,Xk,求出相互独立的新综合变量(主成分)Y1,Y2,…,Yk。2、Y=(Y1,Y2,…,Yk)’所反映信息的含量无遗漏或损失的指标—方差,等于X=(X1,X2,…,Xk)’的方差。X与Y之间的计算关系是:如何求解主成分?AXYXXaaaaYYkkkkkk=即111111江西理工大学理学院2020/7/10一、从协方差矩阵出发求解主成分(一)第一主成分:设X的协方差阵为由于Σx为非负定的对称阵,则有利用线性代数的知识可得,必存在正交阵U,使得p00UΣU1XPPPPPPX212222111211江西理工大学理学院2020/7/10其中1,2,…,p为ΣX的特征根,不妨假设12…p。而U恰好是由特征根相对应的特征向量所组成的正交阵。下面我们来看,是否由U的第一列元素所构成为原始变量的线性组合是否有最大的方差。ppppppuuuuuuuuu212222111211p1)u,,u(Upiiiuuu,,,21iUPi,,2,1江西理工大学理学院2020/7/10证明:设有P维正交向量121111,,,apaaa11111ppFaXaXaX1211111aUUaaa)(pFV12p12112p1puuau,u,,uau江西理工大学理学院2020/7/10当且仅当a1=u1时,即时,有最大的方差1。因为Var(F1)=U’1xU1=1。如果第一主成分的信息不够,则需要寻找第二主成分。pii121)ua(piii11auuaaUUa1aa111piiiiauua21()piiiauppXuXuF11111江西理工大学理学院2020/7/10(二)第二主成分在约束条件下,寻找第二主成分因为所以则,对p维向量,有0),cov(21FFppXuXuF211220),cov(),cov(121122121uuuuxuxuFF012uupiiipiiiiuuFV122122222)uu(uuuu)(2upii2222)uu(piii1222uuuu222uUUu222uu2江西理工大学理学院2020/7/10所以如果取线性变换:则的方差次大。类推ppXuXuXuF222211222FppppppppppXuXuXuFXuXuXuFXuXuXuF22112222112212211111江西理工大学理学院2020/7/10写为矩阵形式:XUFppppppuuuuuuuuu212222111211p1)u,,u(U),,,(X21pXXX江西理工大学理学院2020/7/10例1:设的协方差矩阵为:从协方差矩阵出发,求解主成分.(1)求协方差矩阵的特征根依据求解.'321),,(xxxx2000520210I江西理工大学理学院2020/7/10(2)求特征根对应的特征向量0)2)(2)(2()2)(5)(1(200052021I17.0283.5321000.0383.0924.0100000.0924.0383.0321uuu江西理工大学理学院2020/7/10(3)主成分:(4)各主成分的贡献率及累计贡献率:第一主成分贡献率:第二主成分贡献率:第三主成分贡献率:211924.0383.0xxF32xF213383.0924.0xxF72875.0)17.0283.5/(83.525.0)17.0283.5/(202125.0)17.0283.5/(17.0江西理工大学理学院2020/7/10第一和第二主成分的累计贡献率:由此可将以前三元的问题降维为两维问题.第一和第二主成分包含了以前变量的绝大部分信息97.875%.97875.0)17.0283.5/()283.5(江西理工大学理学院2020/7/10从协方差矩阵出发求解主成分的步骤:1、求解各观测变量的协方差矩阵。2、由X的协方差阵Σ,求出其特征根,即解方程,可得特征根。3、求解可得各特征根对应的特征向量U1,U2,…,Up。其中最大特征根的特征向量对应第一主成分的系数向量;第二大特征根对应的特征向量是第二大主成分的系数向量·····0Iiiiuu)21(21nlxxxXpllll,,,,,,021p)(,,1,'pkkiXUFii江西理工大学理学院2020/7/104、计算累积贡献率,给出恰当的主成分个数。5、计算所选出的k个主成分的得分。将原始数据的中心化值:代入前k个主成分的表达式,分别计算出各样本k个主成分的得分。6、对结果进行正确分析和合理解释.ppiiixxxxxx,,,2211i*iXXX江西理工大学理学院2020/7/10二、由相关矩阵求解主成分当分析中所选择的经济变量具有不同的量纲,变量水平差异很大,应该选择基于相关系数矩阵的主成分分析。量纲对于主成分分析的影响及消除方法——对数据进行标准化处理,以使每一个变量的均值为0,方差为1。)(*iiiiXDXEXX江西理工大学理学院2020/7/10数据标准化后,总体的协方差矩阵与总体的相关系数相等.),cov()()(),cov())(())())(((),cov(**************jijijiijjijjiijiXXXDXDXXXXEXEXXEXEXX11121212112pppp江西理工大学理学院2020/7/10主成分与原始变量的关系式为:))(()(UXUF1*21XEX江西理工大学理学院2020/7/10从相关系数矩阵出发求解主成分的步骤:1、标准化各观测变量数据。2、求解标准化各观测变量的相关系数矩阵。2、根据矩阵知识求解相关系数矩阵的特征根。3、求解各特征根对应的特征向量。其中最大特征根的特征向量对应第一主成分的系数向量;第二大特征根对应的特征向量是第二大主成分的系数向量·····iiiuu0I江西理工大学理学院2020/7/10三、主成分性质1、主成分的协方差阵为对角阵2、p个随机变量的总方差为协方差矩阵的所有特征根之和说明主成分分析把p个随机变量的总方差分解成为p个不相关的随机变量的方差之和。当进行相关系数矩阵求解主成分,各变量标准化后,则p个主成分总的方差之和等于p。piiFVar1)(ppp221121piiFVar1)(ppp221121江西理工大学理学院2020/7/103、贡献率:第i个主成分的方差在全部方差中所占比重称为贡献率,反映了原来p个指标多大的信息,有多大的综合能力。4、累积贡献率:前k个主成分共有多大的综合能力,用这k个主成分的方差和在全部方差中所占比重来描述,称为累积贡献率。piii1piikii11江西理工大学理学院2020/7/105.原始变量与主成分之间的相关系数(因子负荷量)和的相关密切程度与对应线性组合系数向量成正比,与主成分标准差成正比,与原始变量的标准差成反比。当原始变量标准化后,标准化变量与主成分的相关关系:jijjiuFX),(iijijjiijijjiuuFx
本文标题:1第一章 主成分分析
链接地址:https://www.777doc.com/doc-6431603 .html