您好,欢迎访问三七文档
当前位置:首页 > 商业/管理/HR > 管理学资料 > 统计学第八章-回归分析与相关分析
STAT第十一章回归分析与相关分析第八章回归分析与相关分析§8.1相关分析§8.2一元线性回归分析相关和回归分析是研究事物的相互关系、测定它们联系的紧密程度、揭示其变化的具体形式和规律性的统计方法,是构造各种经济模型、进行结构分析、政策评价、预测和控制的重要工具。★STAT第十一章回归分析与相关分析一、相关分析概述二、相关关系的测定§8.1相关分析★⒈出租汽车费用与行驶里程:总费用=行驶里程每公里单价PKG⒉家庭收入与恩格尔系数:家庭收入高,则恩格尔系数低。函数关系(确定性关系)相关关系(非确定性关系)比较下面两种现象间的依存关系现象间的依存关系大致可以分成两种类型:函数关系指现象间所具有的严格的确定性的依存关系相关关系指客观现象间确实存在,但数量上不是严格对应的依存关系函数关系与相关关系之间并无严格的界限:有函数关系的变量间,由于有测量误差及各种随机因素的干扰,可表现为相关关系;对具有相关关系的变量有深刻了解之后,相关关系有可能转化为或借助函数关系来描述。⒈按涉及变量的多少分为相关关系的种类⒉按照表现形式不同分为⒊按照变化方向不同分为一元相关多元相关直线相关曲线相关负相关正相关相关分析的种类STAT第十一章回归分析与相关分析一、相关分析概述二、相关关系的测定§8.1相关分析★★定性分析是依据研究者的理论知识和实践经验,对客观现象之间是否存在相关关系,以及何种关系作出判断定量分析在定性分析的基础上,通过编制相关表、绘制相关图、计算相关系数与判定系数等方法,来判断现象之间相关的方向、形态及密切程度相关关系的测定简单相关表适用于所观察的样本单位数较少,不需要分组的情况分组相关表适用于所观察的样本单位数较多标志变异又较复杂,需要分组的情况将现象之间的相互关系,用表格的形式来反映。相关表正相关负相关曲线相关不相关xyxyxyxy又称散点图,用直角坐标系的x轴代表自变量,y轴代表因变量,将两个变量间相对应的变量值用坐标点的形式描绘出来,用以表明相关点分布状况的图形。相关图在直线相关的条件下,用以反映两变量间线性相关密切程度的统计指标,用r表示2222222)(yynxxnyxxynnyynxxnyyxxSSSryxxy相关系数相关系数r的取值范围:-1≤r≤1r0为正相关,r0为负相关;|r|=0表示不存在线性关系;|r|=1表示完全线性相关;0|r|1表示存在不同程度线性相关:|r|0.4为低度线性相关;0.4≤|r|<0.7为显著性线性相关;0.7≤|r|<1.0为高度显著性线性相关。是相关系数的平方,用表示;用来衡量回归方程对y的解释程度。2r102r判定系数取值范围:2r越接近于1,表明x与y之间的相关性越强;越接近于0,表明两个变量之间几乎没有直线相关关系.2r判定系数9520.09757.09757.0625261751691655086166259163788716)(26175,55086,37887,625,916,162222222222ryynxxnyxxynryxxyyxn解:已知结论:工业总产值与能源消耗量之间存在高度的正相关关系,能源消耗量x的变化能够解释工业总产值y变化的95.2﹪。【例】计算工业总产值与能源消耗量之间的相关系数及判定系数资料STAT第十一章回归分析与相关分析第八章回归分析与相关分析§8.1相关分析§8.2一元线性回归分析★★STAT第十一章回归分析与相关分析一、回归分析概述二、一元线性回归模型三、回归估计标准差四、线性相关的显著性检验五、回归估计与预测§8.2一元线性回归分析★回归分析指根据相关关系的数量表达式(回归方程式)与给定的自变量x,揭示因变量y在数量上的平均变化和求得因变量的预测值的统计分析方法回归:退回regression回归分析与相关分析理论和方法具有一致性;无相关就无回归,相关程度越高,回归越好;相关系数和回归系数方向一致,可以互相推算。联系:相关分析中x与y对等,回归分析中x与y要确定自变量和因变量;相关分析中x、y均为随机变量,回归分析中只有y为随机变量;相关分析测定相关程度和方向,回归分析用回归模型进行预测和控制。回归分析与相关分析区别:注意我们不能把回归分析看作是在变量间建立一个因果关系的过程。回归分析只能表明,变量是如何或者是以怎样的程度彼此联系在一起的。有关因果关系的任何结论,必须建立在理论分析的基础之上。回归分析的种类一元回归(简单回归)多元回归(复回归)线性回归非线性回归一元线性回归SimpleLinearregression按自变量的个数分⒈按回归曲线的形态分⒉STAT第十一章回归分析与相关分析一、回归分析概述二、一元线性回归模型三、回归估计标准差四、线性相关的显著性检验五、回归估计与预测★★§8.2一元线性回归分析一元线性回归模型对于经判断具有线性关系的两个变量y与x,构造一元线性回归模型为:XY为随机误差项为模型参数,与式中:假定E()=0,有总体一元线性回归方程:XYEYˆ一元线性回归方程的几何意义)(YEXXYˆ截距斜率一元线性回归方程的可能形态为正为负为0XYEYˆ总体一元线性回归方程:样本一元线性回归方程:bxayˆ以样本统计量估计总体参数斜率(回归系数)截距截距a表示在没有自变量x的影响时,其它各种因素对因变量y的平均影响;回归系数b表明自变量x每变动一个单位,因变量y平均变动b个单位。(估计的回归方程)(一元线性回归方程)ˆˆ()iiiiyabxxyyyabxy是理论模型,表明与变量之间的平均变动关系,而变量的实际值应为随机干扰:各种偶然因素、观察误差和其他被忽视因素的影响X对y的线性影响而形成的系统部分,反映两变量的平均变动关系,即本质特征。10名学生的身高与体重散点图4045505560657075158163168173178身高(X)体重(Y)bxayˆbxay残差(Residual):ˆeyy一元线性回归方程中参数a、b的确定:bxayˆ最小平方法基本数学要求:2ˆ()minyy02012min,min)ˆ(22xbxaybxaybabxayyy,有求偏导数,并令其为零、分别对函数中,有由整理得到由两个关于a、b的二元一次方程组成的方程组:xbynxbnyaxxnyxxynb22)(进一步整理,有:2ynabxxyaxbx【分析】因为工业总产值与能源消耗量之间存在高度正相关关系(),所以可以拟合工业总产值对能源消耗量的线性回归方程。9520.0,9757.02rr【例】建立工业总产值对能源消耗量的线性回归方程资料,55086,37887,625,916,162xxyyxn由计算表知解:设线性回归方程为bxayˆ5142.6169167961.0166257961.091655086166259163788716222xbyaxxnyxxynb即线性回归方程为:xy7961.05142.6ˆ计算结果表明,在其他条件不变时,能源消耗量每增加一个单位(十万吨),工业总产值将增加0.7961个单位(亿元)。最小二乘法估计的优良性质残差之和为零所拟合直线通过样本散点图的重心误差项与解释变量不相关a与b分别是总体回归系数的无偏估计量a与b均为服从正态分布的随机变量))(,(~))(,(~22222xxNbxxxNa0e),(yx0))((xxee)()(bEaE一元线性回归模型的假定xy0x1xx2xx3xxxyE)()(yfxy0)(E0),(jiCov2)()(iiyVarVar0),(iixCov)(iyE)(iyfb与r的关系:r>0r<0r=0b>0b<0b=0xyyxSSrbSSbr;2222)()(yynxxnyxxynr判定系数与相关系数的关系2)(rbr的符号))(())(()(222222yynxxnyxxynr判定系数与相关系数的区别:判定系数无方向性,相关系数则有方向,其方向与样本回归系数b相同;判定系数说明变量值的总离差平方和中可以用回归线来解释的比例,相关系数只说明两变量间关联程度及方向;相关系数有夸大变量间相关程度的倾向,因而判定系数是更好的度量值。STAT第十一章回归分析与相关分析一、回归分析概述二、一元线性回归模型三、回归估计标准差四、线性相关的显著性检验五、回归估计与预测★★§8.2一元线性回归分析★回归估计标准差是因变量各实际值与其估计值之间的平均差异程度,表明其估计值对各实际值代表性的强弱;其值越小,回归方程的代表性越强,用回归方程估计或预测的结果越准确。22)ˆ(22nxybyaynyySe亿元,且知解:已知457.227961.0,5142.626175,37887,625,1622nxybyaySbayxyyne在大样本条件下,可用公式计算:nxybyaynyySe22)ˆ(【例】计算前面拟合的工业总产值对能源消耗量回归方程的回归标准差资料10名学生的身高与体重散点图4045505560657075158160162164166168170172174176178身高(X)体重(Y)yyˆyyyyˆyyˆ2)(yySST2)ˆ(yySSE2)ˆ(yySSR剩余离差平方和回归离差平方和总离差平方和22)(yynLSSTyy222)()(xxnyxxynUSSR2)(bxayQSSELyy=U+Q总离差平方和回归离差平方和剩余离差平方和2221ˆ()1()yyyyUrLQLyyyy估计标准差越小,则变量间相关程度越高,回归线对Y的解释程度越高。判定系数与估计标准差的关系:STAT第十一章回归分析与相关分析一、回归分析概述二、一元线性回归模型三、回归估计标准差四、线性相关的显著性检验五、回归估计与预测★★§8.2一元线性回归分析★★样本相关系数r的显著性检验(t检验法)⒈提出假设:0:0:10HH目的检验总体两变量间线性相关性是否显著步骤⒉构造检验统计量:)2(~122ntrnrt相关系数的显著性检验(t检验法)⒊根据给定的显著性水平,确定临界值;2t⒌计算检验统计量并做出决策。22ntt⒋确定原假设的拒绝规则:22ntt若,则接受H0,表示总体两变量间线性相关性不显著;若,则拒绝H0,表示总体两变量间线性相关性显著步骤【例】检验工业总产值与能源消耗量之间的线性相关性是否显著资料线性相关性显著。,表示总体的两变量间拒绝有:0025.0221448.21426616.166616.169757.012169757.0Htnttt00:H0:0:,05.0,9757.0,1610HHrn提出假设:则解:已知当成立时,则统计量)2(~122ntrnrtSTAT第十一章回归分析与相关分析一、回归分析概述二、一元线性回归模型三、回归估计标准差四、线性相关的显著性检验五、回归估计与预测★★§8.2一元线性回归分析★★★回归方程的估计与预测估计的前提:回归方程经过检验,证明X和Y的关系在统计上是显著相关的。对于给定的X值,求出Y平均值的一个估计值或Y的一个个别值的预测值。对于给定的X值,求出Y的平均值的置信
本文标题:统计学第八章-回归分析与相关分析
链接地址:https://www.777doc.com/doc-6391661 .html