您好,欢迎访问三七文档
当前位置:首页 > 商业/管理/HR > 其它文档 > (完整版)多元统计分析课程设计终稿
《应用多元统计分析》课程实验报告实验名称:利用回归法分析山东省农村居民收入的消费分配学生班级:统计学院统计0901班学生姓名:王冬冬、王鹏、王莉、王璐指导老师:张艳丽___________________________________完成日期:2011-12-10一、实验内容本文通过分析研究更深一步了解山东省农村居民生活水平。实验中充分利用了回归分析、聚类分析等多种分析手段。先通过收入支出的时间序列模型的分析给出了从2000到2009年的农村收入支出呈现的增长趋势,以及城乡之间的对比;然后利用聚类分析说明了收入支出的地区差异。然后利用回归分析建立了山东省农村居民收入与支出之间的模型,试图寻找出农村居民收入的消费分配现状,即单位收入的支出方向问题。二、实验目的通过本实验主要想达到三个目的:1、利用山东省统计年鉴中有关农村居民收入支出的数据,结合多元统计方法,熟练掌握聚类分析和回归分析的原理及其基本步骤;2、希望通过本次实验充分掌握和运用多元统计分析的统计方法,能够利用基本的统计软件如Eviews、Spss等软件处理分析数据,并对结果作出合理的解释。3、了解近几年来山东省农村居民收入支出的基本状况,其中包括城乡差距问题和居民收入的消费分配问题,进而掌握山东省农村居民的基本生活状况,为我省经济的长远发展提供依据。三、实验方法背景和原理Ⅰ、聚类分析的背景和原理1.聚类分析的定义聚类分析是统计学中研究“物以类聚”问题的多元统计分析方法。聚类分析又称群分析,它是研究对样品或指标进行分类的一种多元统计方法。所谓的“类”,通俗地说就是相似元素的集合。2.聚类的方法分类聚类分析的内容十分丰富,按其聚类的方法可分为以下几种:系统聚类法、调优法、最优分割法、模糊聚类法、图论聚类法、聚类预报法。本文中应用的是系统聚类法:开始每个对象自成一类,然后每次将最相似的两类合并,合并后重新计算新类与其他类的距离或相近性测度,这一过程一直继续直到所有对象归为一类为止。并类的过程可用一张谱系聚类图描述。3.系统聚类法的基本步骤(1)计算n个样品两两间的距离,得样品间的距离矩阵(0)D。类与类之间的距离本文应用的是类平均法。所谓类平均法就是:两类样品两两之间平方距离的平均作为类之间的距离,即:22,1pqpqijiGjGpqDdnn采用这种类间距离的聚类方法,称为类平均法。(2).初始(第一步:i=1)n个样本各自构成一类,类的个数k=n,第t类()ttGX(t=1,2···,n)。此时类间的距离就是样品间的距离(即(1)(0)DD)。(3)对步骤i得到的距离矩阵(1)iD,合并类间距离最小的两类为一新类。此时类的总个数k减少1类,即k=n-i+1.(4)计算新类与其他类的距离,得新的距离矩阵(0)D。若合并后类的总个数k扔大于1,重新步骤(3)和(4);直到类的总个数为1时转到步骤(5)。(5)画谱系聚类图;(6)决定总类的个数及各类的成员。Ⅱ、回归分析的背景和原理1.回归分析的基本原理回归分析是研究两个或多个变量之间关系的统计分析方法,在实际问题中,因变量y往往不是只与一个变量有关,而是和多个变量12,,,pxxx有关,设01122ppyxxx(3.1)其中0,1,,p是p+1个未知参数,0,称为回归常数,1,,p称为回归系数,y为被解释变量(因变量),而12,,pxxx是p个可以精确测量并可控制的一般变量,称为解释变量(自变量),ε是随机误差.称E(y)=01122ppxxx(3.2)为理论回归方程。对一个实际问题我们获的n组观测数据12(,,;),1,2,,iiipixxxyin,则线性回归模型(3.2)可表示为1011121211201212222201122pppppnnpnppyxxxyxxxyxxx(3.3)写成矩阵形式为yX(3.4)其中01111112211,,,1pnnppnnyxxyyXxxy最小二乘原理就是求一个参数向量的估计,使得回归的残差平方和函数SSE()取得最小值()()()SSEYXYX由微分求极值法及矩阵微商有:'()1220SSEXYXX得到正规方程组''XXXY若'XX非退化,则得的最小二乘解'1=XY(XX)2()=1SSEnp的估计2.模型的基本假定及检验为了方便进行模型的参数估计,做如下基本假定:①.解释变量是确定性变量,不是随机变量.并且要求rank(X)=p+1n,它表明设计矩阵是满秩的.②.对随机误差项假定2()0.1,2,,(,1,2,,),cov(,)0,iijEinijnijij这个假定称为高斯-马尔科夫条件。③.正态分布的假定为212(0,),1,2,,,,,inNin相互独立对于多元线性回归的矩阵形式这个条件可以表示为2~nN(0,I)由此可以得到2~(,),nnYNXII其中是单位阵。)为了验证是否能做到基本假定,所以需要做回归模型的显著性检验:①F检验对多元回归方程的显著性检验就是要看自变量12,,pxxx从整体上对随机变量y是否有明显的影响,故提出原假设012:0PH构成F统计量//(1)SSRPFSSEnp并且称,1SSRSSEMSRMSEpnp为均方回归和均方误差,他们都是误差项i的方差2的估计量,但两者的性质有差别。MSR总是2得无偏有效估计量,而MSR只当原假设成立时才会是2的有效估计量,则将趋于无穷。假设成立时统计量服从自由度(p,n-p-1)的F分布。对事先给定的显著性水平确定临界值(,1)FFpnp或者计算F对应的相伴概率值p。若FF或p,就拒绝原假设,认为回归方程显著,自变量与因变量之间存在显著的线性关系。②t检验在多元回归中,回归方程显著并不意味着每个自变量对因变量的影响都显著,因此需要对每个系数进行显著性检验.故提出原假设0:0(1,2,,)iHip由2'11~(,()),pyNXX记'1ij()=XX(c),(i,j=0,1,2,,p)则22i(),var(),~(,),(0,1,2,,)iiiiiiiiEcNcip因此构造t统计量为iiiitc,其中221111()11nniiiiieyynpnp是标准回归差。在原假设成立时,统计量it服从自由度为n-p-1的t分布。对于给定的显著性水平,查处双侧检验的临界值/2t。当/2(1)ttnp,或者t值所对应的相伴概率值p,就拒绝原假设,认为该系数对应的自变量与因变量之间存在显著的线性关系。否则,就接受原假设,认为该自变量与因变量之间不存在显著性的线性关系。③拟合优度检验拟合优度检验用与检验回归方程对样本观测值的拟合程度,定义样本决定系数时,就需要对2R加以修正,理由方差之比得调整后的2R为2/(n-p-11/n-1SSERSST)()在线性回归中2R越大越好。④共线性诊断如何诊断模型是否存在多重共线性,现在还没有一个统一的诊断标准,这里提供一些经验的诊断规则:1.判定系数很高的同时,针对回归系数的t检验统计量的值又偏小.2.自变量之间有高度的线性相关关系.3.回归方程的2R很高的同时,因变量与自变量之间的偏相关系数却很低.4.特征值、病态指数(条件数)、方差比、膨胀因子、容许度.这些统计量都可以用来诊断多重共线性.⑤残差分析进行残差分析有两个目的,一是证实关于模型中误差项随机变量i的正态性假定;二是检验数据集中可能包含的异常值.残差分析是回归分析的最后一项工作,也是最基本的一项工作.3.回归模型建立的步骤①确定回归方程中的解释变量和被解释变量由于回归分析用于分析一个事物如何随其他事物的变化而变化,因此回归分析的第一步应确定哪个事物是需要被解释的,即哪个变量是被解释变量(记为y);哪些事物是用于解释其他变量的,即哪些变量是解释变量(记为x)。在多元线性回归分析中,模型中应引入多少解释变量是需要重点研究的。如果引入的解释变量较少,回归方程将无法很好地解释说明被解释变量的变化。但是也并非引入解释变量越多越好,因为这些变量之间可能存在多重共线性。因此要采取一些策略对解释变量引入回归方程加以控制和筛选。在多元的回归分析中并不是所有的变量都对因变量具有显著的影响,因此就存在着挑选自变量的问题,挑选自变量有多种方法:前进法、后退法、逐步筛选法等。这里主要采用后退法挑选自变量。后退法策略是解释变量不断剔除出回归方程的过程。首先,所有的解释变量全部引入回归方程,并对回归方程进行各种检验。然后,在回归系数显著性检验不显著的一个或多个变量中,剔除t检验值最小的解释变量,并重新建立回归方程和进行各种检验。如果新建回归方程中说有解释变量,并重新建立回归方程和进行各种检验。如果新建回归方程中说有解释变量的回归系数检验都显著,则回归方程建立结束。否则,按照上述方法再一次剔除最不显著的解释变量,直到再也没有可剔除的解释变量为止②确定回归模型根据函数拟合方式,通过观察散点图确定应通过哪种教学模型来概括回归线。如果被解释变量和解释变量之间存在线性关系,则应进行线性回归分析,建立线性回归模型;反之,如果被解释变量和解释变量之间存在非线性关系,则应进行非线性回归分析,建立非线性回归模型。③建立回归模型根据手机到样本数据以及上一步所确定的回归模型,在一定得统计拟合准则下估计出模型中的各个参数,得到一个确定的回归方程。④对回归方程进行各种检验各种检验方法在前文中已经涉及,在此不在一一说明。⑤利用方程进行回归预测建立回归方程的目的之一是根据回归方程对事物的未来发展趋势进行预测。四、实验数据与实验结果Ⅰ、数据的收集和处理通过图书馆查阅资料以及网络查询资料等方式采集了山东省统计年鉴(2010)中有关各市农村居民指标(2009))的数据。分析过程中,一般利用了Eviews,spss等统计软件进行统计分析。农村人均总收入与总支出应用一元线性回归模型分析数据;城乡差异应用折线图来展现;各城市之间的地区差异运用SPSS软件进行聚类分析的处理;消费的不同类别应用因子分析法处理数据并得出结论;收入和支出模型的建立利用了后退法筛选变量并做出回归分析,同时用散点图直观展现其线性关系。Ⅱ、数据分析(一)收入和支出的概况分析(1)收入支出随时间的增长趋势表21-1(a)2000年至2009年山东省农村居民人均总收入年份2000200120022003200420052006200720082009人均总收入3872.224138.614305.774482.155037.525037.525037.527150.288136.668683.22通过上表信息,利用Eviews进行一元线性回归分析,得到如下结果表21-1(b)人均总收入线性回归结果DependentVariable:YMethod:LeastSquaresDate:12/09/11Time:16:09Sample:20002009Includedobservations:10VariableCoefficientStd.Errort-StatisticProb.C2724.857299.55399.0963850.0000X553.163248.2774811.458000.0000R-squared0.942564Meandependentvar5767.255AdjustedR-squared0.935385S.D.dependentvar1725.057S.E.ofregression438.5020Akaikeinfocriterion15.18146Sumsquared
本文标题:(完整版)多元统计分析课程设计终稿
链接地址:https://www.777doc.com/doc-7345586 .html