您好,欢迎访问三七文档
目录第十章多元统计分析第一节主成分分析一、基本思想二、数学模型三、模型的求解四、主成分的性质五、基本步骤与应用实例第二节因子分析一、基本思想二、数学模型三、因子载荷的统计含义四、因子的求解五、因子得分六、基本步骤与应用实例第三节聚类分析一、基本思想二、统计量三、分类方法(系统聚类法)四、基本步骤与应用实例第四节判别分析一、基本思想二、基本方法三、判别效果的评价四、基本步骤与应用实例英文摘要与关键词习题第十章多元统计分析通过本章的学习,我们应该知道:1.如何做主成分分析2.如何做因子分析3.如何做聚类分析4.如何做判别分析多元统计分析(multivariatestatisticalanalysis)是研究多个随机变量之间的相互依赖关系以及内在统计规律性的一门统计学科,是现代统计学应用十分活跃的一个分支。常用多元统计方法主要有:多元数据图表示法、主成分分析、因子分析、聚类分析、判别分析、对应分析、多元回归分析、典型相关分析、路径分析等。从某种意义上讲,多元分析是一些方法的“混合体”,我们难于给出其确切的概念和难于对其所有方法进行归类,但是它可以同时展示和处理异度量的多个变量间的各种关系,且不损失原有的信息量,所以多元统计分析方法成为进行深层次经济分析的一种有效工具。每一种方法都有丰富的内容,也涉及较多的数理统计知识。本章主要的目的是简要介绍一些常用多元统计方法的基本思路和方法,对于数理推导部分,有兴趣的读者可参考相关专著。第一节主成分分析在许多实际问题中,我们经常用多个变量来刻画某一事物,但由于这些变量之间往往具有相关性,很多变量带有重复信息,这样就给分析问题带来了很多不便,同时也使分析结论不具有真实性和可靠性,因此,人们希望寻找到少量几个综合变量来代替原来较多的变量,使这几个综合变量能较全面地反映原来多项变量的信息,同时相互之间不相关。主成分分析正是满足上述要求的一种处理多变量问题的方法。一、基本思想主成分分析就是设法将原来的p个指标重新组合成一组相互无关的新指标的过程。通常数学上的处理就是将原来的p个指标做线性组合。为了能更清晰的解释主成分的基本思想,我们从用两个指标来衡量n个样本点的二维空间入手。在二维空间,n个样本点的变量信息若用离差平方和来表示,则变量的信息总量为总方差。对于每个变量的离差平方和,它们的取值可能出现各种情况:(1)如果离差平方和和之间相差悬殊,如取值之比为10:1,说明变量x1在方差总信息量中占较重要的地位,可剔除变量x2达到降维的目的;(2)如果和数值相差不大,说明两个指标在方差总信息量中的比重相当,统计分析时,两个指标都不可放弃,此时可对x1、x2作适当的变量替换,通过某方法寻找到两个新的变量y1、y2(必须是原变量x1、x2的线性组合),使新变量满足:,(其中),上式说明新变量y继承了原变量x的全部信息,并且要求和数值比例相差较大,这时仅用y1来分析原问题就可以了,变量的个数从2变为了1。此时的y1方差最大,包含的信息最多。y1称之为第一主成分,y2称为第二主成分。推而广之,第一主成分y1的方差达到最大,其方差越大,表示其所包含的信息越多。如果第一主成分还不能反映原指标的全部信息,再考虑选取第二主成分y2,y2在剩余的线性组合中方差最大,并且与y1不相关,如若第一、第二主成分仍然不能反映原变量的全部信息,再考虑选取第三主成分y3,y3在剩余的线性组合中方差最大,并且与y1、y2不相关,依此可求出全部p个主成分,它们的方差是依次递减的。在实际工作中,在不损失较多信息的情况下,通常选取前几个主成分来进行分析,达到简化数据结构的目的。二、数学模型主成分分析可以针对总体,也可以针对样本,但在许多问题中所涉及的总体都是未知的,所以我们主要讨论样本的主成分。仍从二维空间入手,设有两个变量的信息如图10.1所示,大部分的样本点集中在椭圆范围内:图10.1两个变量的信息分布如果我们取椭圆的长轴y1、短轴y2作为样本点新的坐标轴,容易看出y1坐标变化程度大,即y1的方差最大,而y2的变化程度相对较小,即y2的方差较小。于是可以说变量(x1,x2)的信息大部分集中在新变量y1上,而小部分集中在新变量y2上。上图中的新坐标y1,y2是x1,x2经过坐标旋转而得到的,其旋转公式为:系数满足的要求是:我们可以称y1为它们的第一主成分,y2为它们的第二主成分,坐标的正交变换为主成分变换。推广开来,设有n个样本点,每个样本点都有p项变量x1,x2,…,xp,其原始数据矩阵表示为:其中xij是第i个样本点第j个指标的观测值。如前所述,通过主成分变换得到的线性组合可以表示为x1,x2,…,xp的线性组合:(10.1)如果系数uij满足;而且系数uij的确使yi、与yj(i≠j)相互无关,并使y1是x1,x2,…,xp的一切线性组合中方差最大者,y2是与y1不相关的x1,x2,…,xp的所有线性组合中方差最大者,……,yp是与y1,y2,…,yp-1都不相关的x1,x2,…,xp的所有线性组合中方差最大者,则称y1,y2,…,yp为原变量的第一,第二,…,第p主成分。三、模型的求解要求原始变量的主成分,关键在于求公式(10.1)的系数值。在应用主成分分析研究问题时,通常先将数据标准化,以消除量纲对结果的影响。标准化的常用公式为:,标准化后的数据均值为0,方差为1。可以证明,变量x1,x2,…,xp标准化以后,其协方差矩阵S与相关系数矩阵R相等。为了求出主成分,只需求样本协方差矩阵S或相关系数矩阵R的特征根和特征向量就可以。设R的特征根λ1≥λ2≥…≥λp0,相应的单位特征向量为:(ui1ui2…uip)’,那么相应的主成分就是:。四、主成分的性质以下我们不加证明地给出主成分的有关性质。性质1:第k个主成分yk的系数向量是第k个特征根λk所对应的标准化特征向量Uk。性质2:第k个主成分的方差为第k个特征根λk,且任意两个主成分都是不相关的,也就是主成分y1,y2,…,yp的样本协方差矩阵是对角矩阵。性质3:样本主成分的总方差等于原变量样本的总方差。性质4:第k个样本主成分与第j个变量样本之间的相关系数为:该相关系数又称为因子载荷量。在解决实际问题时,一般不是取p个主成分,而是根据累计贡献率取前k个。第k个主成分的方差贡献率为:,前k个主成分的累计方差贡献率为:。通常情况下,如果前k个主成分的累计贡献率达到85%,则表明取前k个主成分就能基本包含原指标中的信息了,从而达到减少变量个数的目的。另一种选择主成分个数的方法是选择大于1的特征根所对应的主成分。五、基本步骤与应用实例(一)基本步骤(1)对原变量的样本数据矩阵进行标准化变换(2)求标准化数据矩阵的相关系数矩阵R(3)求R的特征根及相应的特征向量和贡献率等(4)确定主成分的个数(5)解释主成分的实际意义和作用(二)应用实例【例10.1】我国2006年各地区全部国有及规模以上非国有工业企业主要经济效益指标见表10.1,对各地区经济效益作出分析。表10.1我国2006年各地区全部国有及规模以上非国有工业企业主要经济效益指标地区工业增加值率(%)总资产贡献率(%)资产负债率(%)流动资产周转次数(次/年)工业成本费用利润率(%)产品销售率(%)北京22.416.3238.912.066.1799.18天津28.6614.7057.832.578.6899.22河北28.7614.4061.052.947.3398.21山西36.4010.4967.591.816.5697.66内蒙古42.9512.4461.082.409.4497.84辽宁29.238.2257.502.323.3898.31吉林31.869.5454.782.374.9695.94黑龙江47.1431.0454.712.4728.7998.52上海26.0310.5450.282.216.0399.03江24.9011.6260.582.714.8898.53苏浙江20.5711.0860.352.265.0797.80安徽31.8810.4962.652.424.6098.25福建28.4612.9453.812.516.5896.96江西30.3412.8160.982.795.0498.46山东29.6417.5157.773.407.5898.43河南33.1518.8460.263.189.1398.46湖北32.0910.2654.862.296.8297.96湖南34.0714.2460.202.935.2799.55广东26.3712.2456.722.485.4897.65广西32.0212.4461.102.366.5196.24海南29.7111.7160.501.9711.4997.16重庆29.129.9759.552.085.2298.44四川35.1210.7860.872.106.3198.02贵州36.1610.5865.801.866.3296.98云南37.4717.7854.861.7210.9998.38西藏56.627.8444.201.0620.2491.68陕西41.2115.2159.761.9014.0098.15甘肃28.499.3458.712.174.5697.78青海40.5213.1865.561.7221.4196.37宁夏30.776.9061.541.733.2696.85新疆43.2224.7751.582.7528.4498.77计算过程如下:【解】计算过程如下:1.将数据标准化,并求相关矩阵R地区工业增加值率(%)ZX1总资产贡献率(%)ZX2资产负债率(%)ZX3流动资产周转次数ZX4成本费用利润率(%)ZX5产品销售率(%)ZX6北京-1.42-1.31-3.23-0.51-0.430.99天津-0.590.35-0.020.54-0.061.02河北-0.570.300.531.31-0.260.31山西0.44-0.481.64-1.03-0.37-0.07内蒙古1.31-0.090.530.190.060.05辽宁-0.51-0.93-0.070.03-0.840.38吉林-0.16-0.67-0.540.13-0.61-1.28黑龙江1.873.59-0.550.342.940.53上海-0.94-0.47-1.30-0.20-0.450.88江-1.09-0.260.450.83-0.620.53苏浙江-1.66-0.360.41-0.10-0.590.02安徽-0.16-0.480.800.23-0.660.34福建-0.610.01-0.700.42-0.37-0.56江西-0.36-0.020.521.00-0.600.48山东-0.460.91-0.032.26-0.220.46河南0.011.180.401.800.010.48湖北-0.13-0.53-0.52-0.04-0.330.13湖南0.130.260.381.29-0.561.25广东-0.89-0.13-0.210.36-0.53-0.08广西-0.14-0.090.540.11-0.38-1.07海南-0.45-0.240.44-0.700.36-0.42重庆-0.53-0.580.27-0.47-0.570.47四川0.27-0.420.50-0.43-0.410.18贵州0.41-0.461.34-0.93-0.41-0.55云南0.580.97-0.52-1.210.290.43西藏3.13-1.00-2.33-2.581.67-4.25陕西1.080.460.31-0.840.740.27甘肃-0.61-0.710.13-0.28-0.670.01青海0.990.051.30-1.211.84-0.98宁夏-0.31-1.190.61-1.19-0.86-0.64新疆1.352.35-1.080.912.890.70得相关系数矩阵为:2.求R的特征根及相应的单位正交特征向量和贡献率由R的特征方程求得R的单位特征根λ为:再由齐次线性方
本文标题:多元统计分析
链接地址:https://www.777doc.com/doc-6387967 .html