您好,欢迎访问三七文档
当前位置:首页 > 行业资料 > 其它行业文档 > 第九章 多元回归分析
第九章多元线性回归分析在实际生活中,人们经常要了解、掌握事物之间的相互关系,例如:居民消费水平与年收入之间的关系、消费者对某种商品的需求量与收入水平和商品价格之间的关系等。变量之间的关系分为函数关系和相关关系回归分析就是研究、处理变量之间相关关系的一种数学方法。这种方法将大量观测数据反映的变量与变量之间的相互关系给予定量描述,从而抽象出事物内部本质性、规律性的东西。回归分析有以下几个方面的作用:1、可以确定出几个特定变量之间是否存在相关关系。如存在可以找出它们之间合适的数学表达式。2、可以根据一个或几个变量的值,预测或控制另一个变量的取值,使人们遵循规律,调整事物的发展计划。3、能够进行因素分析,在对于共同影响一个变量的许多因素中,找出哪些是主要因素,哪些是次要因素。第一节多元线性回归数理统计中讨论了两个变量之间的回归问题,解释变量只与一个可控变量有关,然而在许多实际问题中,影响解释变量的因素往往不是一个,我们称这类回归问题为多元回归分析。一、回归方程的建立设通过调查取得n组观察值这些观察值可以表示为一个p元线性函数i=1,2,…,n为y对的p元线性回归方程。用矩阵形式来描述回归问题。n组数据的多元回归模型可表示为:采用最小平方法构造函数所以:……整理得:……用矩阵表示为:于是上式的矩阵形式就化为:例题:某地区乡镇企业总产出,从业劳动者人数和固定资产原值的资料如下:配合回归直线方程。年份总产出(亿元)Y从业劳动者人数x1固定资产原值(亿元)x21997199819992000200120022003490.6543.4649.9722.3840.4999.01433.02826.52909.32999.72969.63112.93234.73848.1229.6280.2326.3375.5429.3475.7575.0回归方程为回归方程为:例2:卫生陶瓷产量与城镇住宅建筑面积、医疗卫生机构建筑面积、办公室建筑面积有关,要求根据下列资料建立回归方程。序号卫生陶瓷产量城镇住宅建筑面积医疗卫生机构建筑面积办公建筑面积1234567891011121314151617181920464357104571189101418202422269910171618109910121419212022212833501.41.11.11.01.11.40.80.40.50.91.12.22.22.42.22.32.12.32.42.62.92.83.14.15.04.51.80.60.82.12.14.04.03.64.24.64.04.34.76.0二、回归方程效果的检验在对一个具体问题配合出回归方程以后,需要考虑这个方程能否在一定程度上揭示诸多变量之间的内在规律,也就是要对回归方程的效果进行检验。总离差平方和可分解成两部分:即自由度为p的回归平方和反映了可控变量重要程度;自由度为n-p-1的剩余平方和的变动对y的波动,其数值大小反映了可控变量的它反映了调查或实验误差以及其它未控制的因素对调查或实验结果的影响。如果总离差平方和中,回归平方和所占的比重大,线性回归效果就越显著,若剩余平方和等于0,则回归平面就通过了所有的观察点;如果剩余平方和所占比重大,线性回归效果越不好。因变量y与可控变量的线性关系如何,主要由系数表现出来,若y与所有可控变量均无关,则必然有所以,要检验y与之间是否存在线性关系,只要检验是否成立即可若在H0成立的条件下,数理统计已经证明:并且,回归平方和与剩余平方和互相独立,因而检验回归方程的统计量F为:因此,在给定置信度为1-a的前提下,在F分布表中可以查找出将F值与临界值比较,若则拒绝H0,说明回归方程显著.三、回归参数的显著性检验在回归方程的显著性检验中,只要有一个可控变量与y之间有线性关系,H0便不能成立,这显然不能把每个自变量对变量y影响的大小分辨出来。不便于我们y进行预报和控制,这就需要对每个回归系数进行假设检验,很明显,如果某个可控变量xi对y作用不显著,在回归模型中,它前面的系数bi就可以取0,因此,检验自变量xi是否显著,就相当于检验假设H0:i=1,2,3,…p由于回归系数bi~N为中主对角线中第i+1个元素。所以:在假设H0成立的前提下,就拒绝H0,说明自变量xi对y的影响是显著的。若ti未达到显著标准,可把xi从回归方程中剔除。注意,每次只能剔除一个不显著的次要变量。例3:检验例1回归方程和回归系数的显著性。方差分析表837.47742剩回SS平方和自由度回归628548.0122S回/2=314274.006剩余2630.8024S剩/4=657.701总计631178.86取a=0.05说明回归方程显著,认为乡镇企业总产出与从业人数和固定资产原值有明显的线性关系。自变量X1X27.2325.555FFF21由于所以,应拒绝F0,认为x1,x2都是回归方程的重要变量。四、相关系数与复相关系数于是,可定义多元回归分析中的复相关系数:叫相关指数或者叫可决系数。复相关系数是用来说明y与之间相关关系密切程度的指标。例5:计算例1中的复相关系数ANOVAb628548.02314274.006477.837.000a2630.8024657.701631178.86RegressionResidualTotalModel1SumofSquaresdfMeanSquareFSig.Predictors:(Constant),固定资产,劳动者人a.DependentVariable:总产出b.当然,我们也可对相关系数进行检验。相关系数的显著性检验和回归方程的显著性检验是一致的。建立的F统计量:在多变量的情况下,变量之间的相关关系是很复杂的,因为,任意两变量之间都可能存在相关关系。简单相关系数往往不能正确的说明变量之间的真正关系。因为,此时所有的变量都在变化。如果需要真正表明这两个变量之间的相关关系,就必须在除去其它变量影响的情况下,计算他们的相关系数,这就是偏相关系数。偏相关系数就是在多元回归分析中,其它变量被固定后的任意两个变量之间的相关关系。偏相关系数可以根据简单相关系数计算出来。如:在除去的影响后它们之间的相关系数为称为对的偏相关系数.类似的只有偏相关系数才能反映出两个变量的本质联系。而简单相关系数可能由于其他因素的影响而反映的是非本质的联系,甚至可能是假象。例7:计算例1中除去固定资产后总产出与劳动者人数的偏相关系数为了给出偏相关系数的表达式,简单相关系数构成的行列式为:则偏相关系数为:为上式的代数余子式。第二节:可化为多元线性回归问题变量之间的内在联系并非总是线性的,有时需要选择适当的非线性函数。函数的选择,没有标准方法,需要根据专业知识、实际经验以及数据特点作具体分析,以确定回归函数的类型,然而有些函数,经过适当的变换,可转化为多元线性回归问题。用多元线性回归的方法求出参数,然后再进行还原即可。(一)多项式函数(二)多元幂函数两边取对数后令:(三)指数函数两边取对数后,令(四)多元对数函数例题;某企业在15年中每年的年产量y和总成本x资料如下:根据资料建立y对x,x2,x3的多项式回归方程。序号总成本(元)产量(件)xx2x3123456789101112131415100002860019500329005240042400629008630074100100000133900115700154800178720203100100300200400600500700900800100012001100130014001500100009000040000160000360000250000490000810000640000100000014400001210000169000019600002250000100000027000000800000064000000216000000125000000343000000729000000512000000100000000017280000001331000000219700000027440000003375000000由并且求出16442.5=FF0.05=3.59,说明多项式回归效果显著li某地2001年到2010年农产品收购额资料如表,配合回归方程年份序号收购额118722043229426153026349740484689540
本文标题:第九章 多元回归分析
链接地址:https://www.777doc.com/doc-3224466 .html