您好,欢迎访问三七文档
当前位置:首页 > 行业资料 > 冶金工业 > 数学建模课件 第11讲 回归分析
2020/1/241数学建模与数学实验后勤工程学院数学教研室回归分析实验目的实验内容2、掌握用数学软件求解回归分析问题。1、直观了解回归分析基本内容。1、回归分析的基本理论。3、实验作业。2、用数学软件求解回归分析问题。2020/1/243一元线性回归多元线性回归回归分析数学模型及定义*模型参数估计*检验、预测与控制可线性化的一元非线性回归(曲线回归)数学模型及定义*模型参数估计*多元线性回归中的检验与预测逐步回归分析2020/1/244一、数学模型例1测16名成年女子的身高与腿长所得数据如下:身高143145146147149150153154155156157158159160162164腿长8885889192939395969897969899100102以身高x为横坐标,以腿长y为纵坐标将这些数据点(xI,yi)在平面直角坐标系上标出.1401451501551601658486889092949698100102散点图xy10解答2020/1/245一般地,称由xy10确定的模型为一元线性回归模型,记为210,0DExy固定的未知参数0、1称为回归系数,自变量x也称为回归变量.一元线性回归分析的主要任务是:1、用试验值(样本值)对0、1和作点估计;2、对回归系数0、1作假设检验;3、在x=0x处对y作预测,对y作区间估计.xY10,称为y对x的回归直线方程.返回2020/1/246二、模型参数估计1、回归系数的最小二乘估计有n组独立观测值,(x1,y1),(x2,y2),…,(xn,yn)设相互独立且,niiiiDEnixy...,,0,...,2,1,21210记niiiniixyQQ12101210),(最小二乘法就是选择0和1的估计0ˆ,1ˆ使得),(min)ˆ,ˆ(10,1010QQ2020/1/24722110ˆˆˆxxyxxyxy解得其中niiniiynyxnx111,1,niiiniiyxnxyxnx11221,1.(经验)回归方程为:)(ˆˆˆˆ110xxyxy或niiniiixxyyxx1211ˆ2020/1/2482、2的无偏估计记niniiiiieyyxyQQ11221010)ˆ(ˆˆ)ˆ,ˆ(称Qe为残差平方和或剩余平方和.2的无偏估计为)2(ˆ2nQee称2ˆe为剩余方差(残差的方差),2ˆe分别与0ˆ、1ˆ独立。eˆ称为剩余标准差.返回2020/1/249三、检验、预测与控制1、回归方程的显著性检验对回归方程xY10的显著性检验,归结为对假设0:;0:1110HH进行检验.假设0:10H被拒绝,则回归显著,认为y与x存在线性关系,所求的线性回归方程有意义;否则回归不显著,y与x的关系不能用一元线性回归模型来描述,所得的回归方程也无意义.2020/1/2410(Ⅰ)F检验法当0H成立时,)2/(nQUFe~F(1,n-2)其中niiyyU12ˆ(回归平方和)故F)2,1(1nF,拒绝0H,否则就接受0H.(Ⅱ)t检验法niiniixxxnxxxL12212)(其中当0H成立时,exxLTˆˆ1~t(n-2)故)2(21ntT,拒绝0H,否则就接受0H.2020/1/2411(Ⅲ)r检验法当|r|r1-α时,拒绝H0;否则就接受H0.记niniiiniiiyyxxyyxxr11221)()())((其中2,121111nFnr2020/1/24122、回归系数的置信区间0和1置信水平为1-α的置信区间分别为xxexxeLxnntLxnnt221022101ˆ)2(ˆ,1ˆ)2(ˆ和xxexxeLntLnt/ˆ)2(ˆ,/ˆ)2(ˆ2112112的置信水平为1-的置信区间为)2(,)2(22221nQnQee2020/1/24133、预测与控制(1)预测用y0的回归值0100ˆˆˆxy作为y0的预测值.0y的置信水平为1的预测区间为)(ˆ),(ˆ0000xyxy其中xxeLxxnntx2021011)2(ˆ)(特别,当n很大且x0在x附近取值时,y的置信水平为1的预测区间近似为2121ˆˆ,ˆˆuyuyee2020/1/2414(2)控制要求:xy10的值以1的概率落在指定区间yy,只要控制x满足以下两个不等式yxyyxy)(ˆ,)(ˆ要求)(2xyy.若yxyyxy)(ˆ,)(ˆ分别有解x和x,即yxyyxy)(ˆ,)(ˆ.则xx,就是所求的x的控制区间.返回2020/1/2415四、可线性化的一元非线性回归(曲线回归)例2出钢时所用的盛钢水的钢包,由于钢水对耐火材料的侵蚀,容积不断增大.我们希望知道使用次数与增大的容积之间的关系.对一钢包作试验,测得的数据列于下表:使用次数增大容积使用次数增大容积234567896.428.209.589.509.7010.009.939.991011121314151610.4910.5910.6010.8010.6010.9010.76解答2020/1/241624681012141666.577.588.599.51010.511散点图此即非线性回归或曲线回归问题(需要配曲线)配曲线的一般方法是:先对两个变量x和y作n次试验观察得niyxii,...,2,1),,(画出散点图,根据散点图确定须配曲线的类型.然后由n对试验数据确定每一类曲线的未知参数a和b.采用的方法是通过变量代换把非线性回归化成线性回归,即采用非线性回归线性化的方法.2020/1/2417通常选择的六类曲线如下:(1)双曲线xbay1(2)幂函数曲线y=abx,其中x0,a0(3)指数曲线y=abxe其中参数a0.(4)倒指数曲线y=axbe/其中a0,(5)对数曲线y=a+blogx,x0(6)S型曲线xbeay1返回解例2.由散点图我们选配倒指数曲线y=axbe/根据线性化方法,算得4587.2ˆ,1107.1ˆAb由此6789.11ˆˆAea最后得xey1107.16789.112020/1/2418一、数学模型及定义一般称nICOVEXY2),(,0)(为高斯—马尔柯夫线性模型(k元线性回归模型),并简记为),,(2nIXYnyyY......1,nknnkkxxxxxxxxxX...1..................1...1212222111211,k...10,n...21kkxxy...110称为回归平面方程.返回线性模型),,(2nIXY考虑的主要问题是:(1)用试验值(样本值)对未知参数和2作点估计和假设检验,从而建立y与kxxx,...,,21之间的数量关系;(2)在,,...,,0022011kkxxxxxx处对y的值作预测与控制,即对y作区间估计.2020/1/2419二、模型参数估计1、对i和2作估计用最小二乘法求k,...,0的估计量:作离差平方和niikkiixxyQ12110...选择k,...,0使Q达到最小。解得估计值YXXXTT1ˆ得到的iˆ代入回归平面方程得:kkxxyˆ...ˆˆ110称为经验回归平面方程.iˆ称为经验回归系数.注意:ˆ服从p+1维正态分布,且为的无偏估计,协方差阵为C2.C=L-1=(cij),L=X’X2020/1/24202、多项式回归设变量x、Y的回归模型为ppxxxY...2210其中p是已知的,),,2,1(pii是未知参数,服从正态分布),0(2N.令iixx,i=1,2,…,k多项式回归模型变为多元线性回归模型.返回kkxxxY...2210称为回归多项式.上面的回归模型称为多项式回归.2020/1/2421三、多元线性回归中的检验与预测1、线性模型和回归系数的检验假设0...:100kH(Ⅰ)F检验法(Ⅱ)r检验法定义eyyQUULUR为y与x1,x2,...,xk的多元相关系数或复相关系数。由于2211RRkknF,故用F和用R检验是等效的。当H0成立时,)1,(~)1/(/knkFknQkUFe如果FF1-α(k,n-k-1),则拒绝H0,认为y与x1,…,xk之间显著地有线性关系;否则就接受H0,认为y与x1,…,xk之间线性关系不显著.其中niiyyU12ˆ(回归平方和)niiieyyQ12)ˆ((残差平方和)2020/1/24222、预测(1)点预测求出回归方程kkxxyˆ...ˆˆˆ110,对于给定自变量的值kxx,...,*1,用**110*ˆ...ˆˆˆkkxxy来预测**110...kkxxy.称*ˆy为*y的点预测.(2)区间预测y的1的预测区间(置信)区间为)ˆ,ˆ(21yy,其中)1(1ˆˆˆ)1(1ˆˆˆ2/10022/1001kntxxcyykntxxcyykikjjiijekikjjiijeC=L-1=(cij),L=X’X1ˆknQee返回2020/1/2423四、逐步回归分析(4)“有进有出”的逐步回归分析。(1)从所有可能的因子(变量)组合的回归方程中选择最优者;(2)从包含全部变量的回归方程中逐次剔除不显著因子;(3)从一个变量开始,把变量逐个引入方程;选择“最优”的回归方程有以下几种方法:“最优”的回归方程就是包含所有对Y有影响的变量,而不包含对Y影响不显著的变量回归方程。以第四种方法,即逐步回归分析法在筛选变量方面较为理想.2020/1/2424•这个过程反复进行,直至既无不显著的变量从回归方程中剔除,又无显著变量可引入回归方程时为止。逐步回归分析法的思想:•从一个自变量开始,视自变量Y作用的显著程度,从大到地依次逐个引入回归方程。•当引入的自变量由于后面变量的引入而变得不显著时,要将其剔除掉。•引入一个自变量或从回归方程中剔除一个自变量,为逐步回归的一步。•对于每一步都要进行Y值检验,以确保每次引入新的显著性变量前回归方程中只包含对Y作用显著的变量。返回2020/1/2425统计工具箱中的回归分析命令1、多元线性回归2、多项式回归3、非线性回归4、逐步回归返回2020/1/2426多元线性回归b=regress(Y,X)npnnppxxxxxxxxxX...1..................1...1212222111211nYYYY...21pbˆ...ˆˆ101、确定回归系数的点估计值:ppxxy...110对一元线性回归,取p=1即可2020/1/24273、画出残差及其置信区间:rcoplot(r,rint)2、求回归系数的点估计和区间估计、并检验回归模型:[b,bint,r,r
本文标题:数学建模课件 第11讲 回归分析
链接地址:https://www.777doc.com/doc-3270869 .html