您好,欢迎访问三七文档
当前位置:首页 > 商业/管理/HR > 咨询培训 > 数学建模讲座-回归分析1
主讲人:黄旭东安徽师范大学数学计算机科学学院统计系系主任huangxdahnu@163.com2课程背景:由于客观事物内部规律的复杂及人们认识程度的限制,无法分析实际对象内在的因果关系,建立合乎机理规律的数学模型。通过对数据的统计分析,找出与数据拟合最好的模型,回归模型是用统计分析方法建立的最常用的一类模型。3WhatShallWeTalk…?内容安排一、多元回归分析二、虚拟变量模型三、多元Logistic回归分析一、多元回归分析55实例1对中国国内旅游消费支出的定量研究●国内旅游消费支出度量及增长的状况怎样?(消费支出度量、增长速度)●分析影响国内旅游消费支出的因素有哪些?(如收入、闲暇时间、交通设施、人口、社会环境等)●国内旅游消费支出与各种影响因素关系的性质是什么?(如增加、减少)●各种因素对国内旅游消费支出影响的程度和具体数量规律是什么?(各种因素变动具体会引起旅游消费支出变动多少)●所作数量分析结果的可靠性如何?●对旅游消费增长的政策效应分析、对国内旅游消费支出发展趋势的预测等566实例2:中国家庭用汽车市场的研究●家用汽车市场状况如何?(用销售量观测)●影响汽车销量的主要因素是什么?(如收入、价格、费用、道路状况、政策、消费行为特征等)●各种因素对汽车销量影响的性质怎样?(正、负)●各种因素影响汽车销量的具体数量关系是什么?●所得的分析结论是否可靠?●今后汽车市场的发展前景怎样?应如何制定汽车的产业政策?677实例3:中国股票价格波动的研究●股票价格变动的情况怎样?(用股价指数观测)●影响股票价格变动的主要因素是什么?(基本面、资金、政策、利率、公司业绩、投资者信心等)●股价与各种影响因素的关系是什么?(利空、利多)●各种因素影响的具体数量规律是什么?●所得的数量分析结果可不可靠?●今后股票价格的发展趋势可能会怎样?0500100015002000250012/19/9010/19/948/19/98SHZS8这类实例需要研究的共性问题:●提出所研究的经济问题及度量方式(如消费、股票价格、汽车)确定作为研究对象的经济现象的变量●分析主要影响因素(根据经济理论、实际经验)选择若干作为影响因素的变量●分析各种影响因素与所研究经济现象的相互关系决定相互联系的数学关系式●确定所研究的经济问题与各种影响因素间的数量规律需要有科学的数量分析方法●分析和检验所得数量结论的可靠性需要运用统计检验方法●运用数量研究的结果作经济分析和经济预测对数量分析的实际应用结论:以上问题的研究具有普遍性,需要运用回归分析方法去研究8案例在一项对某社区家庭对某种消费品的消费需要调查中,得到下表所示的资料。请用手工与软件两种方式对该社区家庭对该商品的消费需求支出作二元线性回归分析,其中手工方式要求以矩阵表达式进行运算。(1)估计回归方程的参数及随机干扰项的方差,计算及。(2)对方程进行检验,对参数进行检验,并构造参数95%的置信区间。(3)如果商品单价变为35元,则某一月收入为20000元的家庭的消费支出估计是多少?构造该估计值的95%的置信区间。F2R2Rt2ˆ步骤一:建立工作表,并输入数据(1)打开Eviews软件,进入主界面,界面如下:(2)点击FileNewworkfile得到如下界面:(3)由于数据为截面数据,则依次点击:workfilefrequency→Undatedorirregular;由于数据的个数为10,则按如下列步骤依次填入:Startdate→1Enddate→10→OK结果如下图:(4)建立序列对象:定义解释变量X1在workfile窗口中,依次点击:ObjectsNewObjectseries;在Nameforobject中输入X1,界面如下所示:定义解释变量X2在workfile窗口中,依次点击:ObjectsNewObjectseries;在Nameforobject中输入X2,界面如下所示:定义被解释变量Y:同理,在workfile窗口中,依次点击:ObjectsNewObjectseries;在Nameforobject中输入Y,界面如下所示:(5)录入数据:同时选中X、Y右击:Open→asGroup→Edit+/-相应的界面如下所示:输入数据,数据输入后得到如下界面:步骤二:第一问:(1)估计回归方程的参数及随机干扰项的方差,计算及。2R2R2(1)普通最小二乘估计:在主界面:Quick→EstimateEquation出现如下界面:依次输入ycx1x2(注意:要有空格)点击ok,得到Equation窗口,如下图所示:从该估计中,可得到随即干扰项的残差平方和为2116.847根据得到随即干扰项的方差为41.3021210847.21162ei2122knei可决系数为调整的可决系数为902218.02R874281.02R第二问:(2)对方程进行检验,对参数进行检验,并构造参数95%的置信区间。Ft(1)F检验方程显著性的检验是要检验模型中参数是否显著不为零。原假设:备择假设:根据样本得到=32.29408给定显著性水平a=0.05,查F分布表得到临界值通过来拒绝原假设,即线性关系显著成立),......,2,1(:0......:1210kjHHjK55.9)7,2(05.0FFiikkiiiXXXY22110k,,1(2,7)FFF(2)t检验提出假设0:0:0:0:21201110HHHH在软件中得到两个变量的值,分别为=3.061617,=4.902030在显著性水平a=0.05,查分布表得到可见,两个变量的t值都大于该临界值,所以拒绝原假设,则在95%的水平下两个解释变量都通过了变量的显著性检验。21,XXt1t2t365.2)7(025.0tt参数的置信区间已知从回归计算中得到根据得到的置信区间为(-17.35,-2.23)的置信区间为(0.0148,0.0424)365.2)7(025.0t790570.91197843.31s028618.02005838.02sjajjajsstt*,*2212第三问:(3)如果商品单价变为35元,则某一月收入为20000元的家庭的消费支出估计是多少?构造该估计值的95%的置信区间。进行以下操作:拓展工作空间:打开workfile窗口,点击Procs→ChangeworkfileRange将Enddate的数据10→11→OK确定预测值的起止日期:打开workfile窗口,点击Procs→Sample,将10→11→OK界面分别如下:在x1的最下方填入35,在x2的最下方填入20000,按回车键。在出现的Equation界面,点击Forecast出现相应界面如下:在Forecastname中输入YF在S.E(optional)中输入W在workfile中双击yf可得到下面界面得到X1=35,X2=20000时家庭的消费支出为Y=856.202507115双击w,得到从上表可得根据得个值的95%的预测区间(759.41,952.99)927.400e0020020eetYYtY在95%的置信度下均值的置信区间为即为(768.6,943.8)22200222000eetYYtY二、虚拟变量模型(一)虚拟变量的基本含义(二)虚拟变量的引入(三)虚拟变量的设置原则在对在校学生的消费行为进行的调查中,发现在校生的消费行为呈现多元化的结构。人际交往消费、手机类消费、衣着类消费、化妆品类消费、电脑类消费、旅游类消费占有较大的比例;而食品类消费、学习用品类消费不突显。显然,男女生在消费上存在差异。为了了解男、女生的消费支出结构差异,应当如何建立模型?面临的问题:如何把男女生这样的非数量变量引入方程?引例:男女大学生消费真有差异吗?(一)虚拟变量的基本含义许多经济变量是可以定量度量。一些影响经济变量的因素是无法定量度量。为了在模型中能够反映这些因素的影响,并提高模型的精度,需要将它们“量化”。这种“量化”通常是通过引入“虚拟变量”来完成的。根据这些因素的属性类型,构造只取“0”或“1”的人工变量,通常称为虚拟变量,记为D。虚拟变量只作为解释变量。1、虚拟变量(dummyvariables)一般地,在虚拟变量的设置中:基础类型、肯定类型取值为1;比较类型,否定类型取值为0。例如,反映文程度的虚拟变量可取为:D=1,本科学历D=0,非本科学历虚拟变量能否取1、0以外的数值?同时含有一般解释变量与虚拟变量的模型称为虚拟变量模型或者方差分析(analysis-ofvariance:ANOVA)模型。例如,一个以性别为虚拟变量考察企业职工薪金的模型:iiiiDXY210其中:Yi为企业职工的薪金;Xi为工龄;Di=1,若是男性,Di=0,若是女性。2、虚拟变量模型(二)虚拟变量的引入虚拟变量作为解释变量引入模型有两种基本方式:加法方式和乘法方式。上述企业职工薪金模型中性别虚拟变量的引入采取了加法方式。在该模型中,如果仍假定E(i)=0,则企业男、女职工的平均薪金为:iiiiXDXYE10)0,|(iiiiXDXYE120)()1,|(1、加法方式假定20,则两个函数有相同的斜率,但有不同的截距。意即,男女职工平均薪金对工龄的变化率是一样的,但两者的平均薪金水平相差2。可以通过对2的统计显著性进行检验,以判断企业男女职工的平均薪金水平是否有显著差异。年薪Y男职工女职工工龄X02将上例中的性别换成教育水平,教育水平考虑三个层次:高中以下、高中、大学及其以上。011D其他高中012D其他大学及其以上iiiDDXY231210iiiXDDXYE1021)0,0,|(iiiXDDXYE12021)()0,1,|(iiiXDDXYE13021)()1,0,|(高中以下高中大学及以上在上例中同时引入性别和教育水平:女男011D大学以下大学及以上012DiiiDDXY231210女职工本科以下学历的平均薪金:iiiXDDXYE13021)()1,0,|(女职工本科以上学历的平均薪金:iiiXDDXYE132021)()1,1,|(iiiXDDXYE1021)0,0,|(iiiXDDXYE12021)()0,1,|(男职工本科以下学历的平均薪金:男职工本科以上学历的平均薪金:加法方式引入虚拟变量,考察:截距的不同。许多情况下,斜率发生变化,或斜率、截距同时发生变化。斜率的变化可通过以乘法的方式引入虚拟变量来测度。2、乘法方式例如,根据消费理论,收入决定消费。但是,农村居民和城镇居民的边际消费倾向往往是不同的。这种消费倾向的不同可通过在消费函数中引入虚拟变量来考察。城镇居民农村居民01iDiiiiiXDXC210iiiiXDXCE)()1,|(210iiiiXDXCE10)0,|(农村居民:城镇居民:例如,根据消费理论,收入决定消费。但是,在自然灾害、战争等反常年份,消费倾向往往发生变化。这种消费倾向的变化可通过在消费函数中引入虚拟变量来考察。tttttXDXC210ttttXDXCE)()1,|(210ttttXDXCE10)0,|(反常年份正常年份01tD例如,根据消费理论,收入决定消费。但是,从某一个时点开始,消费倾向发生变化。这种消费倾向的变化也可通过在消费函数中引入虚
本文标题:数学建模讲座-回归分析1
链接地址:https://www.777doc.com/doc-5726570 .html