您好,欢迎访问三七文档
当前位置:首页 > 商业/管理/HR > 咨询培训 > 数学建模讲座(2)――回归模型
LOGO回归模型张力宁数学建模讲座前言回归分析就是研究变量之间统计规律的方法。回归分析属于“黑箱”建模中常用的方法,其主要问题包括:确定变量之间的定量关系式,即回归方程;检验回归方程的可信度;判断自变量对因变量的影响;预测及控制因变量的变化。回归模型按模型中自变量的多少,分为一元回归模型和多元回归模型;按模型中自变量与因变量之间是否线性,分为线性回归模型和非线性回归模型。分类主要问题前言①画散点图③拟合模型中的参数;⑤如果通过检验,即可用于预测;如果未通过检验,重新选择回归方程类型。②直观判断,选择回归方程类型;基本步骤④模型的检验;主要内容一元线性回归模型多元线性回归模型非线性回归模型利用EXCEL求解回归模型一、一元线性回归模型例1.根据调查得到某市职工个人月可支配收入与月消费支出数据资料(如下表),试研究职工个人月可支配收入与月消费支出的关系。年份12345可支配收入(x)8001000120014001600消费支出(y)7006509009501100年份678910可支配收入(x)18002000220024002600消费支出(y)115012001400155015001、一元线性回归方程为了研究两者之间的关系,先画散点图,以月可支配收入x为横坐标,消费支出y为纵坐标,如下图所示,0200400600800100012001400160018000100020003000数据点整体呈单调增加的趋势,且大致位于一条直线附近,因此考虑建立一元线性回归模型。一、一元线性回归模型为自变量,y为因变量,它们满足01iybbx其中,0b,1b是未知常数,称为回归系数,i为剩余残差项或称随机扰动项。要求i满足:①每个i都是一个随机变量,且互相独立,与x无关;②i的均值为零,即0iE;③在每一个时期中,i的方差为常量,即2iD;一、一元线性回归模型一、一元线性回归模型2、一元线性回归模型的检验在例1中,已知的离散数据分布在回归直线的附近,从直观上看出,回归直线较好地刻画了离散数据的变化趋势,但这种直观的观察的说服力并不强,需要从统计分析的角度对建立的模型进行统计检验,主要分为:对一元线性回归模型的检验拟合优度检验显著性检验回归方程线性关系的显著性检验(F检验)回归系数的显著性检验(t检验)一、一元线性回归模型对于一个回归方程而言,即使它通过了显著性检验,还不能说结果就很好,还需要从回归好坏程度,即拟合优度的角度检验回归方程。(1)、拟合优度检验对于线性回归模型,主要通过复相关系数R2和调整的复相关系数(adjustR2)来度量拟合优度。复相关系数:21eRTTSSRSS2121ˆ()1()niiiniiyyyy显然,0R21,且R2越接近1,因变量y与自变量x之间的线性相关程度越强,拟合优度越好。中的数据,利用EXCEL建立一元线性回归模型并进行检验,可得如下结果:回归方程y=0.509091x+244.545复相关系数0.962062,接近1,说明拟合优度较好F检验统计量F的值为F=202.8679245,查表得F分布的临界值F0.05(1,n-2)=F0.05(1,8)=5.318,显然FFα,回归方程的线性关系显著。一、一元线性回归模型一、一元线性回归模型例如在例1中,建立了回归模型ˆ0.5091244.5455yx,并通过了各项检验。如果要预测职工个人月可支配收入x0=1600元时月消费支出额。可将x0=1600代入回归模型,得到预测值为0ˆ0.50911600244.54551059.11y元。若取0.05=,职工个人月可支配收入x0=1600元时,根据区间预测公式可得,月消费支出额在901.92元至1216.29元之间的概率为95%。二、多元线性回归模型01122kkyxxx其中20,N,201,,,,k为未知参数。多元线性回归模型是处理多个变量之间关系的最简单模型,其一般表达式为1、多元线性回归方程方程01122ˆˆˆˆkkyxxx称为多元线性回归方程。与一元线性回归模型的检验一样,多元线性回归模型的检验也主要分为:2、多元线性回归模型的检验对多元线性回归模型的检验拟合优度检验显著性检验回归方程线性关系的显著性检验(F检验)回归系数的显著性检验(t检验)二、多元线性回归模型-1994年之间国有独立核算工业总产值、职工人数和固定资产的统计数据如下表所示,试建立它们之间的多元线性回归模型。年份时间t工业总产值Y(亿元)职工人数L(万人)固定资产K(亿元)197813289.1831392225.70197923581.2632082376.34198033782.1733342522.81198143877.8634882700.90198254151.2535822902.19198364541.0536323141.76198474946.1136693350.95198585586.1438153835.79198695931.3639554302.25二、多元线性回归模型(亿元)职工人数L(万人)固定资产K(亿元)1987106601.6040864786.051988117434.0642295251.901989127721.0142735808.711990137949.5543646365.791991148634.8044727071.351992159705.5245217757.2519931610261.6544988628.7719941710928.6645459374.34(接上页)二、多元线性回归模型解:令t=年份-1978+1,职工人数记为L,固定资产记为K,工业总产值记为Y,建立多元线性规划模型:0123YtLK利用EXCEL对表中的数据进行多元线性回归,可得回归方程KLty7764.06667.06789.7732.675ˆ二、多元线性回归模型,接近1,说明拟合优度较好F检验统计量F的值为F=1018.551,查表得F分布的临界值F0.05(k,n-k-1)=F0.05(3,13)=3.41,显然FFα,回归方程的线性关系显著。ˆ675.3277.6790.66670.7764ytLK调整的复相关系数0.994786,接近1,说明拟合优度较好二、多元线性回归模型值依次为-0.25179,0.671538,0.78098,7.432745查表得临界值t0.025(n-k-1)=2.532638,有三个系数的统计量的绝对值都小于临界值,不能认为系数显著性不为零,应减少变量.从上述检验结果可以看出,尽管通过了线性显著性检验,拟合优度也很好,但是有三个回归系数的t检验未通过,我们将t检验统计量最小的变量(即时间)删除,重新建立多元线性回归模型。二、多元线性回归模型建立新的多元线性规划模型:012YLK利用EXCEL对表中的数据重新进行多元线性回归,可得新的回归方程为KLy8345.02085.127.2387ˆ下面对新建立的模型进行检验,可得:二、多元线性回归模型非线性回归模型在很多实际问题中,从统计数据的散点图或从机理分析判断,两个变量之家的关系并不是线性关系,而是非线性关系。要描述这种非线性关系,就需要对这两个变量建立非线性回归模型。由于非线性回归模型的类型有无穷多种,而且求解的计算复杂度也比线性回归模型大得多,因此非线性回归模型比较复杂。它的求解方法主要分两类:首先、有一些非线性模型可以通过变量代换等方法线性化,然后按照线性回归的方法求解;其次,可以将非线性回归模型转化为非线性规划问题,然后按照非线性规划问题的相关算法求解。一、一元多项式回归模型1、一元多项式回归方程研究一个因变量与一个或多个自变量间多项式的回归分析方法,称为多项式回归(polynomialregression)。如果自变量只有一个时,称为一元多项式回归;如果自变量有多个时,称为多元多项式回归。设因变量y与自变量x满足一元m次多项式:2012mmybbxbxbx为求解上述方程中的系数,可令1,2,,jjzxjm,则上式可化为01122mmybbzbzbz一、一元多项式回归模型01122mmybbzbzbz此为多元线性回归模型,可按可按本章第一节关于求解多元线性回归的方法求出回归系数,再将变量代回,即得01ˆˆˆ,,mbbb一元m次多项式回归方程为:2012ˆˆˆˆˆmmybbxbxbx当然,还要根据多元线性回归方程显著性的检验方法进行检验。一、一元多项式回归模型例1.给动物口服某种药物A1000mg,每间隔1小时测定血药浓度(g/ml),得到下表中的数据(血药浓度为5头供试动物的平均值)。试建立血药浓度(依变量y)对服药时间(自变量x)的回归方程。血药浓度与服药时间测定结果表服药时间x(小时)123456789血药浓度y(g/ml)21.8947.1361.8670.7872.8166.3650.3425.313.17010203040506070800246810血药浓度随服药时间的变化曲线一、一元多项式回归模型如图所示,血药浓度与服药时间的变化关系显然是非线性的,考虑用一元二次多项式回归模型2012ˆˆˆˆybbxbx令1,2jjzxj,则上式可化为二元线性回归模型01122ˆˆˆˆybbzbz利用EXCEL求解此二元线性回归模型,得二元线性回归方程为12ˆ8.3654834.826933.76236yzz一、一元多项式回归模型对上式进行显著性检验及拟合优度检验,得到如下结果:12ˆˆ,bb的t检验的统计量T依次为26.61033,-29.4578(绝对值都大于0.025(6)t=2.9687,回归系数都显著)复相关系数R2=0.993804,调整的复相关系数Rα2=0.9917(都接近1,表明拟合优度好),上述结果说明此二元线性回归模型通过了各项显著性检验和拟合优度检验,变量代回即得二次多项式回归模型F检验的统计量F=481.1703(大于临界值=5.1433,表明线性关系显著)0.05(2,6)F2ˆ8.3654834.826933.76236yxx一、一元多项式回归模型上述的多项式回归方程实际上就是将因变量y表示成基函数1,,,mxx的线性组合,组合系数记为回归系数。在回归分析中,有时需要将因变量y表示成某一类给定的基函数(),0,1,2,,jxjm的线性组合,即表示成2、基函数
本文标题:数学建模讲座(2)――回归模型
链接地址:https://www.777doc.com/doc-3767109 .html