您好,欢迎访问三七文档
休息一下统计学专业主干课程———多元统计分析安徽财经大学统计与应用数学学院第2章主成分分析要点推荐阅读2.1主成分分析的基本思想2.2主成分分析的一般数学模型2.3主成分的推导及性质2.4主成分分析的一般步骤及SPSS实现2.5主成分分析在综合评价中的应用休息一下统计学专业主干课程———多元统计分析安徽财经大学统计与应用数学学院第2章主成分分析学习目的和要求:通过本章的学习,使学生了解主成分分析的基本原理及其作用,掌握主成分分析的方法,能够应用这一方法分析数据,解决实际问题。返回休息一下统计学专业主干课程———多元统计分析安徽财经大学统计与应用数学学院2.1主成分分析的基本思想2.1.1引例2.1.2主成分分析的含义2.1.3主成分分析的基本思想返回休息一下统计学专业主干课程———多元统计分析安徽财经大学统计与应用数学学院返回2.1主成分分析的基本思想2.1.1引例我们知道生产服装有很多指标,比如袖长、肩宽、身高等十几个指标,服装厂生产时,不可能按照这么多指标来做,怎么办?一般情况,生产者考虑几个综合的指标,象标准体形、特形等。企业经济效益的评价,它涉及到很多指标。例百元固定资产原值实现产值、百元固定资产原值实现利税,百元资金实现利税,百元工业总产值实现利税,百元销售收入实现利税,每吨标准煤实现工业产值,每千瓦时电力实现工业产值,全员劳动生产率,百元流动资金实现产值等,我们要找出综合指标,来评价企业的效益。休息一下统计学专业主干课程———多元统计分析安徽财经大学统计与应用数学学院返回2.1主成分分析的基本思想2.1.1引例在实证研究中,为了全面、系统地分析问题,都尽可能完整地搜集信息,对每个观测往往测量很多指标,这些指标在不同程度上反映了所研究问题的某些信息,但由于各变量均是对同一事物的反映,变量之间往往具有一定的相关性。因而所得的统计资料反映的信息在一定程度上有重叠。在研究问题时,变量太多会增大计算量和增加分析问题的复杂性,为了使问题简化,人们自然希望在进行定量分析的过程中涉及的变量较少,而得到的信息量又较多。因此我们希望从中综合出一些主要的变量,由这几个综合变量出发还有可能得到一个总的指标,按此总指标来排序、分类,问题可能就简单得多了。这些特点,使我们在研究复杂的问题时,容易抓住主要矛盾。休息一下统计学专业主干课程———多元统计分析安徽财经大学统计与应用数学学院返回2.1主成分分析的基本思想2.1.1引例主成分分析是解决这一问题的理想工具.因为众多变量之间既然有一定的相关性,就必然存在着起支配作用的共同因素,根据这一点,通过对原始变量相关矩阵内部结构关系的研究,找出影响某一现象的几个综合变量,这些综合变量能够反映原始变量的绝大部分信息,并且彼此之间互不相关。休息一下统计学专业主干课程———多元统计分析安徽财经大学统计与应用数学学院返回2.1主成分分析的基本思想2.1.2主成分分析的含义主成分分析又称主分量分析或主轴分析,是将多个变量化为少数几个综合变量的一种多元统计分析方法。从数学角度来看,这是一种降维处理技术。通常把转化生成的综合变量称之为主成分。主成分分析是由Hotelling于1933年首先提出的。主成分分析常被用来寻找判断某种事物或现象的综合指标,并给综合指标所蕴藏的信息以恰当解释,以便更深刻的揭示事物内在的规律。通过这种方法可以降低数据维数,消除原始变量之间的相关性以便进一步利用其他方法对数据进行分析。休息一下统计学专业主干课程———多元统计分析安徽财经大学统计与应用数学学院返回2.1主成分分析的基本思想2.1.2主成分分析的含义那么这些综合变量如何选取呢?显然,其最简单的形式就是取原来变量的线性组合(例如平均成绩):若有一些变量X1,X2,…,XP,取综合变量即它们的线性组合Y,适当调整组合系数,使新的变量尽可能多的反映原来变量的信息且彼此之间相互独立。休息一下统计学专业主干课程———多元统计分析安徽财经大学统计与应用数学学院2.1主成分分析的基本思想2.1.3主成分分析的基本思想主成分分析就是设法将原来众多具有一定相关性的指标(比如p个指标),重新组合成一组新的相互无关的综合指标(Yi,i=1,…,p),并使其尽可能多的反映原来指标的信息。通常使综合指标Yi为原来p个指标的线性组合。休息一下统计学专业主干课程———多元统计分析安徽财经大学统计与应用数学学院2.2主成分分析的数学模型及几何意义2.2.1主成分分析的数学模型2.2.2主成分分析的几何意义休息一下统计学专业主干课程———多元统计分析安徽财经大学统计与应用数学学院npnppxxxxxxxx,,,,),,(111121,)(协差阵,)(维随机向量,均值是,,,(设DP)21(2.1)2.2主成分分析的数学模型及几何意义2.2.1主成分分析的数学模型休息一下统计学专业主干课程———多元统计分析安徽财经大学统计与应用数学学院原始变量为X1,X2,…,XP,考虑它们的线性变换——新的综合变量由原来的变量X1,X2,…,XP线性表示,即:uuupuuuuuuuuuppp2p21p1p2p2p22212121p1p2121111xxxxxxxxx(2.3)2.2主成分分析的数学模型及几何意义2.2.1主成分分析的数学模型休息一下统计学专业主干课程———多元统计分析安徽财经大学统计与应用数学学院由于可以任意地对原始变量进行上述线性变换,由不同的线性变换得到的综合变量Y的统计特性也不尽相同。假如我们希望用Y1来代替原来的P个变量X1,X2,…,XP,这就要求Y1尽可能多地反映原来P个变量的信息,即希望Y1是X1,X2,…,XP的一切线性函数中方差最大的。2.2主成分分析的数学模型及几何意义2.2.1主成分分析的数学模型休息一下统计学专业主干课程———多元统计分析安徽财经大学统计与应用数学学院从统计分析角度看,一个指标(随机变量)或一组数据所含有的信息,可以用差异的大小,用方差来度量,方差越大,所包含的信息量越大;方差越小,所包含的信息量越小。特别地,方差为0,所包含的信息量为0,看不出任何差异。比如一份试卷,大家全考100分或全考0分,那么,这些分数、这次考试对于了解学生的学习情况、优劣差异,便不能提供任何信息。2.2主成分分析的数学模型及几何意义2.2.1主成分分析的数学模型为什么要用方差的大小来寻找主成分呢?休息一下统计学专业主干课程———多元统计分析安徽财经大学统计与应用数学学院),1,(),cov(),,2,1())(()()()var()var(pjipiuuuuuuuuuuujijiiii2.2主成分分析的数学模型及几何意义2.2.1主成分分析的数学模型休息一下统计学专业主干课程———多元统计分析安徽财经大学统计与应用数学学院就称为第一主成分。达到最大,)(使得量的条件下寻求向),故我们希望在即常用的限制是加以限制,则如不对所以(,对任意的常数(由于111111111212111112121111,1(1,)(,)(),)uuuuuuuuuuukukuuuuVIVaruVkVkVp2.2主成分分析的数学模型及几何意义2.2.1主成分分析的数学模型休息一下统计学专业主干课程———多元统计分析安徽财经大学统计与应用数学学院如果第一主成分不足以代表原来P个变量的绝大部分信息,考虑X的第二个线性组合Y2。为了有效地代表原变量的信息,Y1已反映(体现)的信息不希望在Y2中出现,用统计语言来讲,就是要求0),cov(1212uu2.2主成分分析的数学模型及几何意义2.2.1主成分分析的数学模型于是求Y2,就是在约束和cov(Y2,Y1)=0下,求u2使Var(Y2)达到最大,所求之Y2称为第二主成分。类似地可求得第三主成分、第四主成分等等。Iuu22休息一下统计学专业主干课程———多元统计分析安徽财经大学统计与应用数学学院综上所述,我们将线性变换约束在下面的原则之下:(1)即(2)Yi与Yj(i≠j;i,j=1,2,…,P)相互无关,即(3)Y1是X1,X2,…,XP的一切满足原则(1)的线性组合中方差最大者;Y2是与Y1不相关的X1,X2,…,XP的所有线性组合中方差最大者;…;YP是与Y1,Y2,……YP-1都不相关的X1,X2,…,XP的所有线性组合中方差最大者。即Iuu2222pi)()(21pVarVarVar)(pjijiCovji,,,,,,),(210122221piiiuuu休息一下统计学专业主干课程———多元统计分析安徽财经大学统计与应用数学学院2.2主成分分析的数学模型及几何意义2.2.1主成分分析的数学模型基于以上三条原则决定的新(综合)变量Y1,Y2,…,YP分别称为原始变量X1,X2,…,XP的第一、第二、……,第P个主成分。其中,Y1在总方差中占的比例最大,说明它综合原有变量X1,X2,…,Xp的能力最强,其余主成分Y2,Y3,…,YP在总方差中占的比重依次递减,说明越往后的主成分综合原信息的能力越弱。以后的分析可以用前面几个方差最大的主成分Y来进行。休息一下统计学专业主干课程———多元统计分析安徽财经大学统计与应用数学学院(在商务与经济中,常常需要将很复杂的数据集综合成商业指数形式,也就是说将P个指标所构成的P维系统简化为一维系统,一些熟悉的例子如物价指数、生活费用指数等,这些指数是由各种加权成分所组成的,在某种意义上,这些权反映了各种成分相对重要性的数量,从主成分的观点来探讨这个问题,主成分分析所构成的第一主成分正是这一问题的答案,它提供了自身的权重系数。)休息一下统计学专业主干课程———多元统计分析安徽财经大学统计与应用数学学院从以上分析可以看出,找主成分就是确定原来变量Xj(j=1,2,…,p)在诸主成分Yi(i=1,2,…,m)上的载荷uij(i=1,2,…,m;j=1,2,…,p)。2.2主成分分析的数学模型及几何意义2.2.1主成分分析的数学模型休息一下统计学专业主干课程———多元统计分析安徽财经大学统计与应用数学学院2.2主成分分析的数学模型及几何意义2.2.2主成分分析的几何意义下面在二维空间中讨论主成分的几何意义,所得结论可以扩展到多维的情况。主成分的几何意义休息一下统计学专业主干课程———多元统计分析安徽财经大学统计与应用数学学院设有N个样品,每个样品有两个观测变量X1,X2,这样,在由变量X1,X2组成的坐标空间中,N个样品散布的情况如椭圆状。如下图。2.2主成分分析的数学模型及几何意义2.2.2主成分分析的几何意义休息一下统计学专业主干课程———多元统计分析安徽财经大学统计与应用数学学院•2112••••••••••••••••••••••••••••••••••••主成分分析的几何解释平移、旋转坐标轴休息一下统计学专业主干课程———多元统计分析安徽财经大学统计与应用数学学院•21••••••••••••••••••••••••••••••••••••右图中的N个样本点,无论沿着X1轴方向还是X2轴方向,都有较大的离散性。休息一下统计学专业主干课程———多元统计分析安徽财经大学统计与应用数学学院•21••••••••••••••••••••••••••••••••••••当只考虑X1和X2中的任何一个分量时,原始数据中的信息将会有较大的损失。所以直接舍弃某个分量不是“降维”的有效办法。休息一下统计学专业主干课程———多元统计分析安徽财经大学统计与应用数学学院•21••••••••••••••••••••••••••••••••••••平移、旋转坐标轴考虑X1和X2的线性组合,使原始样品数据可以由新的变量Y1和Y2来刻画,在几何上表示就是将坐标轴按逆
本文标题:第二章-主成分分析
链接地址:https://www.777doc.com/doc-3602986 .html