您好,欢迎访问三七文档
当前位置:首页 > 商业/管理/HR > 资本运营 > 主成分分析---××
rincipalComponentsAnalysis主成分分析P问题的引入在对某事物进行实证研究时,为了更全面、准确地反映事物的特征及其发展规律,人们往往要考虑与其有关系的多个指标,这些指标在多元统计中也被称为变量。这样就产生了如下的问题:一方面人们为了避免遗漏重要的信息而考虑尽可能多的指标,另一方面考虑指标增多增加了问题的复杂性。同时由于各指标均是对同一事物的反映,不可避免地造成信息的大量重叠,这种信息的重叠有时甚至会抹杀事物的真正特征和内在规律。前言问题的引入如何解决主成分特点意义问题的引入?何如解决呢前言如何解决?基于此,通过对原始变量相关矩阵或协方差矩阵内部结构关系的研究,利用原始变量的线性组合形成几个综合指标(主成分),在保留原始变量主要信息的前提下起到降维和简化问题的作用,使得在研究复杂问题时更容易抓住主要矛盾。前言问题的引入如何解决主成分特点意义如何解决每一个主成分都是各原始变量的线性组合主成分的数目大大少于原始变量的数目各主成分之间互不相关主成分保留了原始变量绝大多数信息主成分特点前言问题的引入如何解决主成分特点意义主成分特点意义通过主成分分析,可以从事物之间错综复杂的关系中找出一些主要成分,从而能有效利用大量统计数据进行定量分析,解释变量之间的内在关系,得到对事物特征及其发展规律的一些深层次的启发,把研究工作引向深入。前言问题的引入如何解决主成分特点意义意义那么,到底什么是主成分分析呢?目录目录ONTENTSC1主成分分析的原理及模型2主成分分析的计算步骤3主成分分析在SPSS上实现1主成分分析的原理及模型目录目录ONTENTSC231主成分分析的原理及模型主成分分析的计算步骤主成分分析在SPSS上实现利用降维的思想在损失很少信息的前提下把多个指标转化为几个综合指标(主成分)每个主成分都是原始变量的线性组合且各个主成分之间互不相关主成分分析(PCA)主成分分析(principalcomponentsanalysis,PCA)也称主分量分析,是由霍特林于1933年首先提出的.主成分分析的原理及数学模型在保留原始变量尽可能多的信息的前提下达到降维的目的,从而简化问题的复杂性并抓住问题的主要矛盾.基本思想主成分分析的原理及数学模型主成分分析(PCA)特点较原始变量有更多的优越性能!更容易抓住事物的主要矛盾揭示事物内部变量之间的规律性使问题得到简化,提高分析效率个人理解实质上就是完成从“高维空间”向低维空间的转换,把互相关联复杂问题简单化的方法主成分分析是一种对多元数据的变量数目进行有效减维压缩的方法。它提供了一种能在保持原事物大部分信息的基础上,将变量数较多而且变量间有不同程度相关关系的数据转换成一组变量数较少而且变量间相互独立的新数据的方法。主成分分析的原理及数学模型200水稻品种20个性状的观察值品种编号X1X2…X201..….2..….……………200..….200水稻品种5个主成分品种编号X1X2…X51..….2..….……………200..….原理x1x2y2y1先讨论只有两个变量的情况。事物结构不变,只是坐标轴旋转了,所以总方差不变,即S2x1+S2x2=S2y1+S2y2,而右图中,y1的变异比y2的变异大得多。如果y2的变异小到可以认为是由于误差造成的,则只需y1就足以说明问题。主成分分析的原理及数学模型方差是事物信息量的度量是为了使得样品点在y1轴方向离散程度最大转换公式θx1x2y1y2112212cossinsincosYXXYXX主成分分析的原理及数学模型转换公式可以看到新变量Y1和Y2是原变量X1和X2的线性组合,它的矩阵表示形式为:其中,T’为旋转变换矩阵,它是正交矩阵,即有:TT=IYl,Y2除了可以对包含在Xl,X2中的信息起着浓缩作用之外,还具有不相关的性质,这就使得在研究复杂的问题时避免了信息重叠所带来的虚假性。1122cossinsincosYXTXYX112212cossinsincosYXXYXX主成分分析的原理及数学模型主成分分析推广到p维情形设(X1,X2,…,Xp)是p维随机向量,EX=μ,DX=Σ1111121212212122221122pppppppppppZaXaXaXaXZaXaXaXaXZaXaXaXaX考虑如下的线性变换:var()(1,,)cov(,)(,1,,)iiiijijZaaipZZaaijp则:我们希望寻找一组新的变量(Z1,Z2,…,Zm)(mp),这组新的变量要求充分地反映原变量(X1,X2,…,Xp)的信息,而且相互独立。主成分分析的原理及数学模型用Z1=a1X来代替原来p个变量X1,X2,…,Xp,显然,当var(Z1)越大,表示Z1包含的信息越多。显然,如果a1使得var(Z1)达到最大,则ca1也使得var(Z1)达到最大,因此必须对a1加上限制,一般取a1使得a1a1=1时使var(Z1)达到最大。此时就称Z1为第一主成分(或主分量)。主成分分析的原理及数学模型1221222221cov(,)0(2)1(3)var()maxZZZZZaaZZ若不满足代表原变量所包含的信息,再考虑选取,使满足()称为第二主成分。类似地,可求第三主成分,第四主成分等等。主成分分析的原理及数学模型主成分分析的原理及数学模型使得z=aTx方差最大var(z)=var(aTx)=aTΣa拉格朗日极值法化简F(a)=aTΣa-λ(aTa-1)𝛿𝐹(𝑎,𝜆)𝛿𝑎=2𝛴𝑎−2𝜆𝑎=0𝛿𝐹(𝑎,𝜆)𝛿𝜆=𝑎𝑇𝑎−1=0可见a是Σ的长度为1的特征向量,此时max(var(z))=aTΣa=λaTa=λ𝛴𝑎=𝜆𝑎𝑎𝑇𝑎=1数学推导过程1主成分分析的计算步骤目录目录ONTENTSC312主成分分析的计算步骤主成分分析的原理及模型主成分分析在SPSS上实现协方差矩阵贡献率累计贡献率特征值特征向量协方差矩阵特征值特征向量贡献率累计贡献率协方差矩阵主成分分析的解法在sij(i,j=1,2,…,p)为原来变量zxi与zxj的协方差cov(zxi,zxj),其计算公式为:其中:sij=𝟏𝐧𝐳𝐱𝐢𝐥−𝐳𝐱𝐢𝐳𝐱𝐣𝐥−𝐳𝐱𝐣𝐧𝐥=𝟏𝒛𝒙𝒊=𝟏𝒏𝒛𝒙𝒊𝒋𝒏𝒋=𝟏,i=1,2,…,p.协方差矩阵Σ:Σ=s11⋯s1p⋮⋱⋮sp1⋯spp标准化:𝑧𝑥𝑖𝑗=𝑥𝑖𝑗−𝑥𝑗𝑠𝑗,i,j=1,2,3,…,n;其中𝑥𝑗=1𝑛𝑥𝑘𝑗𝑛𝑘=1,𝑠𝑗2=1𝑛−1𝑥𝑘𝑗−𝑥𝑗2𝑛𝑘=1,j=1,2,…,p.由于协方差矩阵易受指量纲的影响,通常需要对数据进行消除量纲影响的处理,也就是标准化。不过这些SPSS会自动完成。主成分分析的解法协方差矩阵特征值特征向量贡献率累积贡献率特征值特征向量首先解特征方程|λE-Σ|=0求出特征值λi(i=1,2,…,p),并使其按大小顺序排列,即λ1≥λ2≥...≥λp≥0;然后分别求出对应特征值λi的特征向量ai(i=1,2,…,p),然后,单位化,正交化。协方差矩阵特征值特征向量贡献率累积贡献率贡献率累积贡献率主成分贡献率主成分累计贡献率主成分Zi贡献率定义为(i=1,2,…,p)主成分分析的解法主成分贡献率解释相应主成分Zi所反映综合信息能力的大小协方差矩阵特征值特征向量贡献率累积贡献率主成分贡献率主成分累积贡献率.一般取累积贡献率达85%~95%的特征值λ1,λ2,…,λm所对应的第一,第二,…,第m(mp)个主成分.主成分分析的解法主成分累计贡献率贡献率累积贡献率3主成分分析在SPSS上实现目录目录ONTENTSC213主成分分析在SPSS上实现主成分分析的计算步骤主成分分析的原理及模型主成分分析在上实现原始数据用SPSS进行主成分分析分析结果SPSSSPSS(StatisticalProductandServiceSolutions),”统计产品与服务解决方案”软件主成分分析在SPSS上实现从上表(相关系数矩阵)可知,土壤水分与Mclntosh指数、幸普森指数、Pielou指数存在着显著关系。可见许多变量之间直接的相关性比较强,证明他们存在信息上的重叠。主成分个数提取原则为主成分对应的特征值大于1的前m个主成分。特征值在某种程度上可以看成是表示主成分影响力大小的指标。如果特征值小于1,说明该主成分的解释力度还不如直接引入一个原变量的平均值解释力度大。因此可以用特征值大于1作为判断主成分的标准。此外还要考虑累积贡献率大于85%。相关系数矩阵主成分分析在SPSS上实现从左表(方差分解主成分提取分析)可知,一共提取四个主成分;从右表(初始因子载荷矩阵)可知,Shannon指数、种间相遇率、Mclntosh指数、幸普森指数、Pielou指数在第一主成分有较高载荷,说明第一主成分基本反映了这些指标的信息,全N质量分数在第二主成分中有较高的载荷,说明第二主成分基本反映了全N质量分数指标的基本信息等等。所以提取四个主成分是可以基本反映全部指标的信息,也就可以仅用四个新变量来代替原来11个变量,在理论上是行得通的。方差分解主成分提取分析表初始因子载荷矩阵主成分分析在SPSS上实现对原始变量提取的百分比!主成分分析在SPSS上实现F1=0.3ZX1+0.03ZX2-0.08ZX3+0.07ZX4+0.4ZX5+0.39ZX6-0.41ZX7+0.12ZX8-0.41ZX9+0.41ZX10-0.27ZX11F2=-0.22ZX1+0.34ZX2+0.43ZX3-0.61ZX4+0.15ZX5+0.15ZX6+0.02ZX7+0.47ZX8+0.02ZX9-0.05ZX10.+0.04ZX11F3=0.22ZX1-0.56ZX2+0.4ZX3-0.02ZX4+0.04ZX5-0.02ZX6-0.15ZX7+0.06ZX8-0.15ZX9+0.04ZX10.+0.65ZX11F4=0.15ZX1+0.55ZX2+0.52ZX3+0.13ZX4-0.05ZX5-0.05ZX6-0.06ZX7-0.58ZX8-0.06ZX9+0.16ZX10.+0.12ZX11用主成分载荷矩阵中的数据除以主成分相对应的特征值开平方便得到每个主成分中每个指标所对应的系数,运行SPSS,可得到特征向量,将得到的特征向量与标准化后的数据相乘,就可以得到主成分表达式。求主成分表达式初始因子载荷矩阵每个指标所对应的系数在SPSS中企业主成分表达式中每个指标所对应的系数主成分分析在SPSS上实现综合主成分值及排名求主成分综合模型ThankYou!谢谢观看!三周时间准备,两周时间制作。希望能实际应用中用好!主成分分析
本文标题:主成分分析---××
链接地址:https://www.777doc.com/doc-4734301 .html