您好,欢迎访问三七文档
当前位置:首页 > 商业/管理/HR > 销售管理 > 第10讲--回归分析
1线性回归据英国媒体2008年2月18日报道,通过对过去20年里定期在东京和大阪街头进行的随机调查发现。当日本经济迅速发展时,女性更愿意留长头发;而当经济出现停滞时,她们更愿意更多地剪短发…环球时报,2008年2月20日管理决策,经常取决于对两个或更多个变量的分析。例如:一位销售部经理在考虑了广告费和销售收入之间的关系后,才能尝试去预测一定水平的广告费可能带来多少销售收入。通常,一位管理人员要依靠直觉或经验去判断两个变量的关系。但是,如果能取得数据,我们就能利用统计模型(如回归分析)去建立一个表示变量间相互关系的方程,来做预测。4预测需要建立统计模型“没有哪一个模型是对的,但是的确有一些模型是有用的。”Allthemodelsarewrong,butsomeareuseful.---Box,G.模型提供了一种参照(Benchmark),从而减少了你决策过程当中由于不确定因素存在而带来的困惑。线性回归的是干啥的?线性回归是确定两种或两种以上变量间相互依赖的定量关系的一种统计分析方法。解释变量之间的关系;经济发展同女性头发的关系。预测未来;通过广告花费才预测企业未来的销售量。历史渊源回归(regression)到什么?SirFrancisGalton(1822-1911)7案例一:比格比萨饼连锁店比格比萨饼连锁店坐落在大学校园附近。管理人员确信,这些连锁店的季度销售收入(用y表示)与学生人数(用x表示)是正相关的。问题:y如何依赖于x?8数据假定由位于大学校园附近的10家比格比萨饼连锁店组成一个样本。ixiy9散点图050100150200250051015202530学生人数(千人)销售收入(千美元)10相关系数可以告诉你什么?不能告诉你什么?相关系数为0.95。变异性的分解为什么不同连锁店的季度销售收入存在差异?一种理解模式:误差项ε,包含了x之外的对y的变异有影响的其它因素。简单线性回归模型这个模型表达了y与x之间的什么关系?问题:此模型的假设是什么?当x=某一个值时,y服从什么分布?它期望的均值是多少?针对具体样本应该选择一条什么直线14最小二乘法对回归系数的最小二乘估计1401ˆˆˆ,01201,1minniiiyx15最小二乘估计找以及使得如下的平方和最小最小二乘估计0ˆ1ˆ2011niiiyx问题:估计出来的回归系数是样本观测值的函数?它们会随着样本的不同而变化吗?问题I:估计出来的回归系数是样本观测值的函数?它们会随着样本的不同而变化吗?问题II:估计出来的回归系数是参数还是统计量?样本回归系数17课堂案例的回归直线xy560ˆ如何解释60和5?180501001502002500102030学生人数(千人)销售收入(千美元)19关于回归系数的假设检验需要检验假设的抽样分布?19011:0:0aHyxHyx与之间不存在线性关系与之间存在线性关系1ˆ20抽样分布假定各观测的误差项独立,并且都来自于分布那么,最小二乘估计的抽样分布为20,N22ˆ~,ˆiiiiiNi,=0,1其中表示的方差21关于回归系数的假设检验问题检验统计量由N-P原则可以推出拒绝域:p值:21011:0vs.:0aHH11ˆ~0,1ˆTTN在原假设下,1-/2TzP~(0,1)ZTZN观测到的值的绝对值,其中22案例一:假设检验11ˆ58.62ˆ0.58P8.620.001TpZ值故拒绝原假设,认为学生人数与季度销售收入之间存在显著的线性关系23对样本数据变异性的分解24拟合值和残差拟合值(fittedvalue):根据样本数据估计出来的回归线,记为残差(residual):对数据拟合回归线后剩余的部分,记为样本数据可以分解成拟合值加残差。y25对样本变异性的分解xy拟合值残差25870-1261059015888100-1281181001812117120-316137140-320157160-320169160922149170-212620219012方差1747.7781577.778170XYˆiiyyinyynyixˆinyy27判定系数27含义:总变异中能被估计的回归方程解释的比例28比萨案例一的判定系数对于比格比萨饼连锁店的例子判定系数=0.903表明:季度销售收入变异性的90.3%能被估计的回归方程所解释。案例继续:比萨店盈利预测研究问题:预测某地区比萨店销售收入。y:比萨店的销售收入x:周边学校学生人数;学校学生的平均开支。良好的预测取决于你对问题的认识!比萨店数据学生人数(千人)平均支出(千元)销售收入(千美元)20.815860.92105880.851.0288118120.93117161.13137202022261.200.941.281.3815716914920231自变量误差项多元线性回归01122yxx因变量参数:对x1-x2的回归系数参数:截距回归系数32最小二乘法对回归系数的最小二乘估计32012201122,,1minniiiiyxx012(,,)33判定系数33总变异中能被估计的回归方程解释的比例34关于回归系数的假设检验需要检验假设的抽样分布?340:0:0iiaiiHyxHyx与之间不存在线性关系与之间存在线性关系ˆi35抽样分布假定各观测的误差项独立,并且都来自于分布那么,最小二乘估计的抽样分布为20,N22ˆ~,ˆiiiiiNi,=0,1,2,3,4其中表示的方差36关于回归系数的假设检验问题检验统计量拒绝域:p值:360:0vs.:0iaiHHˆ~0,1ˆiiTTN在原假设下,1-/2TzP~(0,1)ZTZN观测到的值的绝对值,其中回归结果输出参数估计标准误差P值截距项54.0738.100.20x14.841.190.005X27.8648.770.87Review-回归模型建立回归模型的步骤:Step1:了解数据画散点图看相关系数表050100150200250051015202530学生人数(千人)销售收入(千美元)相关系数为0.95建立回归模型的步骤:Step2:建立模型问题:当x=某一个值时,y服从什么分布?41图示回归方程xy回归直线x1x2x=x1时y的分布01ˆyxbb=+回归分析回归的目的(实质):由固定的解释变量x去估计因变量y的平均值常数项(截距),当所有的=0时,y的平均值。回归系数(regressioncoefficient):在其它自变量保持不变时,增加或减少一个单位时y的平均变化量。包含了p个解释变量之外的对y的变异有影响的其它因素。01122ppyxxx0iix多元线性回归模型的一般形式ix建立回归模型的步骤:Step3:模型估计针对具体样本应该选择一条什么直线?办法:最小二乘估计找使得如下的平方和最小问题:估计出来的回归系数是样本观测值的函数?它们会随着样本的不同而变化吗?2011221niiipipiyxxx当p=1时建立回归模型的步骤:Step4:解读模型(1)y总变异中能被估计的回归方程解释多少比例(2)所有的x是否与y之间存在一个显著的关系(3)检验y与每个x之间是否存在关系(1)y总变异中能被估计的回归方程解释多少比例为什么y存在差异?(y的变异)一种理解模式:误差项ε,包含了p个解释变量之外的对y的变异有影响的其它因素。12(,,...,)pyfxxxe=+总变异中能被估计的回归方程解释的比例对于Armand比萨饼连锁店的例子判定系数=0.903表明:季度销售收入变异性的90.3%能被估计的回归方程所解释,或者说季度销售收入变异性的90.3%能被校园的学生人数所解释。(3)检验y与每个x之间是否存在关系检验检验统计量0:0:0iiaiiHyxHyx与之间不存在显著关系与之间存在显著关系22ˆ~ˆ,iiiiiN,其中表示的方差01-/20.ˆ~0,1ˆ|,,HiiiTNTzpHxy若|或值则拒绝即我们有充分的理由认为自变量与那么因变量之间存在显著地线性关系。一般的回归结果输出参数估计标准误差P值截距项54.0738.100.20x14.841.190.005X27.8648.770.8751回归模型的诊断回顾一下对模型的设定1)回归函数是直线;2)是服从正态分布N(0,)的.2.1)对于所有的x,的均值为0.2.2)对于所有的x,的方差为.3)对于不同的x,误差项是相互独立的.这些假定对于检验回归系数检验提供了理论上的依据。如果关于误差项的假定不可靠,那么有关回归关系的显著性检验会站不住脚。所以建完模型后,我们应该先“诊断”后“读结果”。53诊断模型的工具:残差分析什么是残差?残差可以看作是误差的代表。分析残差是对模型进行诊断的重要手段。niyyiiii,2,1ˆˆ个残差:第2011Recall:,~(0,)iidppyxxN54利用残差图来诊断模型残差图通常是指残差与拟合值的散点图如果模型是比较合适的,那么残差图上的点应该落在一条水平带中间,除此之外,残差图上的点不应呈现出什么规律性。55Armand案例的残差图56Reynolds公司的销售人员Reynolds公司是一家生产工业天平和实验室设备的企业。公司管理人员想要对公司销售人员的工作年限和天平的销售数量之间的关系进行研究。他们随机抽取了15名销售人员,利用相应的数据资料得到了他们近期的销售数量对工作年限的简单线性回归方程,SALES=111+2.38MONTHS。观察该回归方程的残差图(见下页),你觉得哪些地方存在问题,如何进行更改?57Reynolds公司案例残差图58对Reynolds案例的诊断残差图呈现出有规律的曲线形态,说明线性回归形式选择不适当,建议改用二次函数即抛物线型的回归曲线或者其它曲线形式。59二次曲线回归的结果自变量系数系数标准误TP常量45.3522.771.990.070MONTHS6.3451.0586.000.000MONTHS2-0.0344860.008948-3.850.002R-Sq=90.2%60二次曲线回归的残差图61衡量广告的效果Superbrands’98(1997.10.20)给出了10种主要品牌的啤酒的广告费用(百万美元)和销售数量(百万桶)的统计资料,根据该数据可以得到销售量对广告投入的回归方程,SALES=4.089+0.196AD,对应的残差图见下页。你根据该残差图能够得出什么结论?62Superbrands’98案例残差图63对Superbrands案例的诊断结论在残差图可以看出,残差的波动幅度前后呈现出明显的差异,属于异方差情况(Heteroskedasticity),说明在回归模型中对误差项作的等方差假设是不合适的。建议对因变量做变换,比如ln(y)、或者1/y等等,再对变换后的因变量建立线性回归模型。y64以取对数的销售额建立的回归自变量系数系数标准误TP常量1.61230.130012.400.000AD0.01490.00226.830.000R-Sq=85.4%65新的模型的残差图66标准化的残差残差的标准化这里的标准化也称为学生化(Studentized)。标准化残差图能对随机误差项服从正态分布的假定提供一种直观的认识。如果这一假定被满足,那么标准化残差的分布也应服从标准正态分布。于是我们应期望看到,大约95%的标准化残差都落在-1.96到1.96之间,或约为-2到2之间。Armand案例的标准化残差图510152025-2-1
本文标题:第10讲--回归分析
链接地址:https://www.777doc.com/doc-2153060 .html