您好,欢迎访问三七文档
当前位置:首页 > 高等教育 > 理学 > 重庆工商大学数学模型与数学实验课件第14讲 回归分析
大学数学实验ExperimentsinMathematics实验12回归分析《数学建模与数学实验》---李焕荣Pearson:1078个父亲和儿子身高的散点图回归(regression)?FrancisGolton(1822-1911)•一般说来高个子的父代会有高个子的子代•子代的身高比父代更加趋向一致(“向平庸的回归”)69,68yx对于身高72英寸的父亲,儿子身高多数不到73英寸;对于身高64英寸的父亲,儿子身高多数超过65英寸;回归直线y=0.516x+33.73O儿子比父亲平均高1英寸•由于客观事物内部规律的复杂及人们认识程度的限制,无法分析实际对象内在的因果关系;•人们关心的变量(因变量)受另外几个变量(自变量)的关联性(非因果性)的影响,并且存在众多随机因素,难以用机理分析方法找出它们之间的关系;•需要建立这些变量的数学模型,使得能够根据自变量的数值预测因变量的大小,或者解释因变量的变化。回归分析是数学建模的有力工具血压与年龄刹车距离与车速薪金与资历、教育程度、工作岗位•收集一组包含因变量和自变量的数据;•选定因变量与自变量之间的模型,利用数据按照最小二乘准则计算模型中的系数;•利用统计分析方法对不同的模型进行比较,找出与数据拟合得最好的模型;•判断得到的模型是否适合于这组数据,诊断有无不适合回归模型的异常数据;•利用模型对因变量作出预测或解释。回归分析的主要步骤1.简化的实际问题及其数学模型2.一元线性回归3.多元线性回归4.非线性回归回归分析(RegressionAnalysis)•从应用角度介绍回归分析的基本原理、方法和软件实现实例及其数学模型例1血压与年龄为了解血压随年龄增长而升高的关系,调查了30个成年人的血压(收缩压,mmHg)与年龄:•用这组数据确定血压与年龄的关系;•从年龄预测血压可能的变化范围;•回答“平均说来60岁比50岁的人血压高多少”。序号血压年龄序号血压年龄序号血压年龄114439111626421136362215471215056221425031384513140592312039414547141103424120215162651512842251604410203040506070100120140160180200220例1血压与年龄记血压(因变量)y,年龄(自变量)x,模型作数据(xiyi)(i=1,2,30)的散点图xy10由数据确定系数10,的估计值10ˆ,ˆ•曲线拟合(求超定线性方程组的最小二乘解);•从统计推断角度讨论β0,β1的置信区间和假设检验;•对任意的年龄x给出血压y的预测区间。y与x大致呈线性关系序号血压年龄体重指数吸烟序号血压年龄体重指数吸烟序号血压年龄体重指数吸烟11443924.20111626428.01211363625.0022154731.11121505625.80221425026.2131384522.60131405927.30231203923.5041454724.01141103420.10241202120.3051626525.91151284221.70251604427.11例2血压与年龄、体重指数、吸烟习惯又调查了例1中30个成年人的体重指数、吸烟习惯:体重指数:体重(kg)/[身高(m)]2吸烟习惯:0~不吸烟,1~吸烟模型例2血压与年龄、体重指数、吸烟习惯记血压y,年龄x1、体重指数x2、吸烟习惯x3y与x2大致呈线性关系作数据y对x2的散点图3322110xxxy由数据确定系数的估计值3210ˆ,ˆ,ˆ,ˆ3210,,,例3软件开发人员的薪金资历~从事专业工作的年数;管理~1=管理人员,0=非管理人员;教育~1=中学,2=大学,3=研究生建立模型研究薪金与资历、管理责任、教育程度的关系,分析人事策略的合理性,作为新聘用人员薪金的参考.编号薪金资历管理教育01138761110211608103031870111304112831020511767103编号薪金资历管理教育422783716124318838160244174831601451920717024619346200146名软件开发人员的档案资料模型y~薪金,x1~资历(年)x2=1~管理人员,x2=0~非管理人员1=中学2=大学3=研究生其它中学,,x013其它大学,,x014•资历每加一年薪金的增长是常数;•管理、教育、资历之间无交互作用.教育线性回归模型中学:x3=1,x4=0;大学:x3=0,x4=1;研究生:x3=0,x4=0443322110xxxxy由数据确定3210ˆ,ˆ,ˆ,ˆ假设例4酶促反应酶~高效生物催化剂;酶促反应~经过酶催化的化学反应酶促反应的反应速度主要取决于反应物(底物)的浓度:•底物浓度较小时,反应速度大致与浓度成正比;•底物浓度很大、渐进饱和时,反应速度趋于固定值.Michaelis-Menten模型y~酶促反应的速度,x~底物浓度xxy21待定系数1(最终反应速度)xy011/222(半速度点)底物浓度(ppm)0.020.060.110.220.561.10反应速度处理764797107123139159152191201207200未处理6751848698115131124144158160/为研究酶促反应中嘌呤霉素对反应速度与底物浓度之间关系的影响,设计了两个实验:使用的酶经过嘌呤霉素处理;使用的酶未经嘌呤霉素处理。例4酶促反应实验数据对未经嘌呤霉素处理的反应,用实验数据估计参数1,2;用实验数据研究嘌呤霉素处理对参数1,2的影响。模型xxy21xxy111121121对1,2非线性对1,2线性1/x较小时有很好的线性趋势,1/x较大时出现很大的分散.01020304050600.0060.0080.010.0120.0140.0160.0180.02xy1121x较大时,y有较大偏差.参数估计时,x较小(1/x很大)的数据控制了参数的确定.00.20.40.60.811.2050100150200xxy211=6.97210-3,2=0.21510-31=143.43,2=0.0308直接考虑非线性模型一元线性回归分析已知一组数据(xi,yi),i=1,2,n(平面上的n个点),用最小二乘准则确定一个线性函数(直线)xy10问题1.血压与年龄102030405060701001201401601802002202.合金强度与碳含量0.10.120.140.160.180.20.220.244045505560怎样衡量由最小二乘准则拟合得到的模型的可靠程度?怎样给出模型系数的置信区间和因变量的预测区间?系数的计算二者没有什么区别;2的拟合效果比1好得多.一元线性回归模型xy10x~自变量yny2y1xnx2x110,~回归系数~随机变量(影响y的随机因素的总和)独立性:对于不同的x,y相互独立线性性:y的期望是x的线性函数0xyxEy10基本假设齐次性:对于不同的x,y的方差是常数正态性:对于给定的x,y服从正态分布是相互独立的、期望为0、方差为2、正态分布的随机变量,即~N(0,2),称(随机)误差。回归系数的最小二乘估计niiiniixyQ12101210)]([),(误差平方和0,010QQ))((,)(,1,112111yyxxsxxsynyxnxiniixyniixxniinii直线xy10ˆˆ通过xi,yi的均值点)(yx,最小二乘估计线性无偏最小方差估计iiixy10xyssxxxy101ˆˆ,ˆ一元线性回归的统计分析1.误差方差D=2的估计nixyii,2,1,ˆˆˆ10yi理论值(期望)的估计niyyiii,2,1,ˆˆ误差i的估计,称残差(记作ei)残差平方和niiiniiyyeQ1212)ˆ(2的无偏估计2ˆ22nQsn-2~Q的自由度=数据容量模型中所含参数的个数s2~剩余方差(样本方差),s~剩余标准差(样本标准差)iiixy102.回归系数的区间估计和假设检验统计性质:),/,(~ˆ211xxsN,~/2)2(2nQ)2(11211~)ˆ()2/(/)ˆ(nxxxxtssnQst1ˆ和Q相互独立1的置信区间]ˆ,ˆ[2/1),2(12/1),2(1xxnxxnsstsst对1的假设检验0:,0:1110HH2/1),2(1ˆnxxtsstt分布问:怎样缩短1的置信区间?拒绝H0回归模型有效1的置信区间不包含零点一元线性回归的统计分析3.模型的有效性检验)ˆ()ˆ(yyyyyyiiiiniiniiiniiyyyyyy121221)ˆ()ˆ()(总偏差平方和回归平方和残差平方和SUR/2偏差的分解:SUQ=+决定系数因变量的总变化中自变量引起的部分的比例2)1(2212~/ˆ/xxsU)2,1(~)2/(nFnQUFxxniisxxU211221ˆ)(ˆxy10ˆˆiixy10ˆˆˆ,~/2)2(2nQFF(1,n-2),1-若H0成立给定,有F(1,n-2),1-一元线性回归的统计分析拒绝H0回归模型有效利用一元线性回归模型进行预测x0给定,y0的预测值:0100ˆˆˆxy0ˆy200)ˆ(yyE性质:无偏,且最小]11)(ˆ,11)(ˆ[202/1),2(0202/1),2(0nsxxstynsxxstyxxnxxn预测区间]ˆ,ˆ[2/102/10suysuyn很大且x0接近x0xyxy10ˆˆˆ)(ˆxy)(ˆxyxysunsxxstxxxn2/122/1),2(11)()(s~剩余标准差一元线性回归的MATLAB实现b=regress(y,X)[b,bint,r,rint,s]=regress(y,X,alpha)输入:y~因变量(列向量),X~1与自变量组成的矩阵,alpha~显著性水平(缺省时设定为0.05)。输出:,bint~0,1的置信区间,r~残差(列向量),rint~残差的置信区间,)ˆ,ˆ(10bs(3个统计量):决定系数R2;F值;F(1,n-2)分布大于F值的概率p。当p时拒绝H0,回归模型有效。注意regress与polyfit用法的区别例1血压与年龄xy10模型回归系数回归系数估计值回归系数置信区间098.4084[78.7484118.0683]10.9732[0.56011.3864]R2=0.4540F=23.2834p0.0001s2=273.7137模型检验1置信区间不含零点;p;F(1,n-2),1-=4.1960F1置信区间较长,R2较小,模型精度不高。回归系数回归系数估计值回归系数置信区间096.8665[85.4771108.2559]10.9533[0.71401.1925]R2=0.7123F=66.8358p0.0001s2=91.4305数据由残差图剔除异常数据后例1血压与年龄xy10模型51015202530-40-20020406080ResidualCaseOrderPlotResidualsCaseNumbero510152025-30-20-10010203040ResidualCaseOrderPlotResidualsCaseNumber
本文标题:重庆工商大学数学模型与数学实验课件第14讲 回归分析
链接地址:https://www.777doc.com/doc-10667348 .html