您好,欢迎访问三七文档
第十章统计回归模型10.1牙膏的销售量10.2软件开发人员的薪金10.3酶促反应10.4投资额与生产总值和物价指数10.5教学评估10.6冠心病与年龄回归模型是用统计分析方法建立的最常用的一类模型.数学建模的基本方法机理分析测试分析通过对数据的统计分析,找出与数据拟合最好的模型.•不涉及回归分析的数学原理和方法.•通过实例讨论如何选择不同类型的模型.•对软件得到的结果进行分析,对模型进行改进.由于客观事物内部规律的复杂及人们认识程度的限制,无法分析实际对象内在的因果关系,建立合乎机理规律的数学模型.10.1牙膏的销售量问题建立牙膏销售量与价格、广告投入之间的模型;预测在不同价格和广告费用下的牙膏销售量.收集了30个销售周期本公司牙膏销售量、价格、广告费用,及同期其他厂家同类牙膏的平均售价.9.260.556.804.253.70307.930.055.803.853.80298.510.256.754.003.7527.38-0.055.503.803.851销售量(百万支)价格差(元)广告费用(百万元)其他厂家价格(元)本公司价格(元)销售周期基本模型y~公司牙膏销售量x1~其他厂家与本公司价格差x2~公司广告费用110xy222210xxy55.566.577.577.588.599.510x2y-0.200.20.40.677.588.599.510x1y22322110xxxyx1,x2~解释变量(回归变量,自变量)y~被解释变量(因变量)0,1,2,3~回归系数~随机误差(均值为零的正态分布随机变量)MATLAB统计工具箱模型求解[b,bint,r,rint,stats]=regress(y,x,alpha)输入x=~n4数据矩阵,第1列为全1向量]1[2221xxxalpha(置信水平,0.05)22322110xxxyb~的估计值bint~b的置信区间r~残差向量y-xbrint~r的置信区间Stats~检验统计量R2,F,p,s2y~n维数据向量输出由数据y,x1,x2估计参数参数估计值置信区间17.3244[5.728228.9206]1.3070[0.68291.9311]-3.6956[-7.49890.1077]0.3486[0.03790.6594]R2=0.9054F=82.9409p0.0001s2=0.04900123结果分析y的90.54%可由模型确定参数参数估计值置信区间17.3244[5.728228.9206]1.3070[0.68291.9311]-3.6956[-7.49890.1077]0.3486[0.03790.6594]R2=0.9054F=82.9409p0.0001s2=0.0490012322322110xxxyF值远超过F检验的临界值p值远小于=0.052的置信区间包含零点(右端点距零点很近)x2对因变量y的影响不太显著x22项显著可将x2保留在模型中模型从整体上看成立22322110ˆˆˆˆˆxxxy销售量预测价格差x1=其他厂家价格x3-本公司价格x4估计x3调整x4控制价格差x1=0.2元,投入广告费x2=6.5百万元销售量预测区间为[7.8230,8.7636](置信度95%)上限用作库存管理的目标值下限用来把握公司的现金流若估计x3=3.9,设定x4=3.7,则可以95%的把握知道销售额在7.82303.729(百万元)以上控制x1通过x1,x2预测y2933.8ˆˆˆˆˆ22322110xxxy(百万支)模型改进x1和x2对y的影响独立22322110xxxy21422322110xxxxxy参数参数估计值置信区间17.3244[5.728228.9206]1.3070[0.68291.9311]-3.6956[-7.49890.1077]0.3486[0.03790.6594]R2=0.9054F=82.9409p0.0001s2=0.04260123参数参数估计值置信区间29.1133[13.701344.5252]11.1342[1.977820.2906]-7.6080[-12.6932-2.5228]0.6712[0.25381.0887]-1.4777[-2.8518-0.1037]R2=0.9209F=72.7771p0.0001s2=0.049030124x1和x2对y的影响有交互作用两模型销售量预测比较21422322110ˆˆˆˆˆxxxxxy22322110ˆˆˆˆˆxxxy预测区间[7.8230,8.7636]预测区间[7.8953,8.7592]控制价格差x1=0.2元,投入广告费x2=6.5百万元预测区间长度更短略有增加yˆ2933.8ˆy预测值3272.8ˆy预测值x2=6.5x1=0.2-0.200.20.40.67.588.59x1yˆ-0.200.20.40.67.588.59x1yˆ56787.588.599.510x2yˆ567888.599.51010.5x2yˆ22322110ˆˆˆˆˆxxxy21422322110ˆˆˆˆˆxxxxxy两模型与x1,x2关系的比较yˆ交互作用影响的讨论2221.06712.07558.72267.30ˆ1xxyx价格差x1=0.1价格差x1=0.32223.06712.00513.84535.32ˆ1xxyx21422322110ˆˆˆˆˆxxxxxy5357.72x加大广告投入使销售量增加(x2大于6百万元)价格差较小时增加的速率更大56787.588.599.51010.5x1=0.1x1=0.3x2yˆ1.03.011ˆˆxxyy价格优势会使销售量增加价格差较小时更需要靠广告来吸引顾客的眼球完全二次多项式模型22521421322110xxxxxxyMATLAB中有命令rstool直接求解00.20.47.588.599.5105.566.57yˆ)ˆ,ˆ,ˆ,ˆ,ˆ,ˆ(ˆ543210从输出Export可得鼠标移动十字线(或下方窗口输入)可改变x1,x2,左边窗口显示预测值及预测区间yˆ牙膏的销售量建立统计回归模型的基本步骤•根据已知数据从常识和经验分析,辅之以作图,决定回归变量及函数形式(先取尽量简单的形式).•用软件(如MATLAB统计工具箱)求解.•对结果作统计分析:R2,F,p,s2是对模型整体的评价,回归系数置信区间是否含零点,用于检验回归变量对因变量的影响是否显著.•模型改进,如增添二次项、交互项等.•对因变量进行预测.10.2软件开发人员的薪金资历~从事专业工作的年数;管理~1=管理人员,0=非管理人员;教育~1=中学,2=大学,3=更高程度.建立模型研究薪金与资历、管理责任、教育程度的关系.分析人事策略的合理性,作为新聘用人员薪金的参考.编号薪金资历管理教育0113876111021160810303187011130411283102编号薪金资历管理教育422783716124318838160244174831601451920717024619346200146名软件开发人员的档案资料分析与假设y~薪金,x1~资历(年)x2=1~管理人员,x2=0~非管理人员1=中学2=大学3=更高其他中学,,013x其他大学,,014x•资历每加一年,薪金的增长是常数;•管理、教育、资历之间无交互作用.教育443322110xaxaxaxaay线性回归模型a0,a1,…,a4是待估计的回归系数,是随机误差中学:x3=1,x4=0;大学:x3=0,x4=1;更高:x3=0,x4=0假设模型求解443322110xaxaxaxaay参数参数估计值置信区间a011033[1025811807]a1546[484608]a26883[62487517]a3-2994[-3826-2162]a4148[-636931]R2=0.9567F=226p0.0001s2=106R2,F,p模型整体上可用资历增加1年薪金增长546管理人员薪金多6883中学程度薪金比更高的少2994大学程度薪金比更高的多148a4置信区间包含零点,解释不可靠!中学:x3=1,x4=0;大学:x3=0,x4=1;更高:x3=0,x4=0.x2=1~管理,x2=0~非管理x1~资历(年)残差分析方法结果分析443322110ˆˆˆˆˆˆxaxaxaxaay残差yyeˆe与资历x1的关系05101520-2000-1000010002000e与管理—教育组合的关系123456-2000-1000010002000残差全为正,或全为负,管理—教育组合处理不当.残差大概分成3个水平,6种管理—教育组合混在一起,未正确反映.应在模型中增加管理x2与教育x3,x4的交互项.组合123456管理010101教育112233管理与教育的组合426325443322110xxaxxaxaxaxaxaay进一步的模型增加管理x2与教育x3,x4的交互项参数参数估计值置信区间a011204[1104411363]a1497[486508]a27048[68417255]a3-1727[-1939-1514]a4-348[-545–152]a5-3071[-3372-2769]a61836[15712101]R2=0.9988F=554p0.0001s2=3104R2,F有改进,所有回归系数置信区间不含零点,模型完全可用消除了不正常现象异常数据(33号)应去掉!05101520-1000-5000500e~x1123456-1000-5000500e~组合去掉异常数据后的结果参数参数估计值置信区间a011200[1113911261]a1498[494503]a27041[69627120]a3-1737[-1818-1656]a4-356[-431–281]a5-3056[-3171–2942]a61997[18942100]R2=0.9998F=36701p0.0001s2=410305101520-200-1000100200e~x1123456-200-1000100200e~组合R2:0.95670.99880.9998F:22655436701s2:10431044103置信区间长度更短残差图十分正常最终模型的结果可以应用模型应用制订6种管理—教育组合人员的“基础”薪金(资历为0)组合管理教育系数“基础”薪金101a0+a39463211a0+a2+a3+a513448302a0+a410844412a0+a2+a4+a619882503a011200613a0+a218241426325443322110ˆˆˆˆˆˆˆˆxxaxxaxaxaxaxaay中学:x3=1,x4=0;大学:x3=0,x4=1;更高:x3=0,x4=0x1=0;x2=1~管理,x2=0~非管理大学程度管理人员比更高程度管理人员的薪金高.大学程度非管理人员比更高程度非管理人员的薪金略低.对定性因素(如管理、教育)可以引入0-1变量处理,0-1变量的个数可比定性因素的水平少1.软件开发人员的薪金残差分析方法可以发现模型的缺陷,引入交互作用项常常能够改善模型.剔除异常数据,有助于得到更好的结果.注:可以直接对6种管理—教育组合引入5个0-1变量.10.3酶促反应问题研究酶促反应(酶催化反应)中嘌呤霉素对反应速度与底物(反应物)浓度之间关系的影响.建立数学模型,反映该酶促反应的速度与底物浓度以及经
本文标题:回归模型
链接地址:https://www.777doc.com/doc-2549884 .html