您好,欢迎访问三七文档
统计学湖北中医药大学预防医学教研室1中医药统计学基础医学院预防医学教研室(HJ-C202)Tel:027-68891232QQ:1652776782E-Mail:annworld@163.com魏沙副教授统计学湖北中医药大学预防医学教研室2上节回顾上一节中我们通过直线相关分析知道了血糖值和胰岛素值之间呈负相关关系。那么,如果我们知道了一位糖尿病患者的胰岛素值含量,能推断出这位患者的血糖值吗?或者预测血糖值可能存在的范围吗?对此相关分析不能给我们答案,这些问题需要使用直线回归的方法来解决。统计学湖北中医药大学预防医学教研室3回归的概念“回归”由来:最早由英国遗传学家弗朗西斯·高尔顿(FrancisGalton)提出。1886年“FamilyLikenessinStature”:父母高,子女也高;父母矮,子女也矮,即父母身高对子女身高起到决定性作用。普遍回归定律(lawofuniversalregression):尽管父母都非常高或非常矮,但子女的身高却有回归到人群总体平均身高的趋势。统计学湖北中医药大学预防医学教研室4统计学湖北中医药大学预防医学教研室5现代统计学奠基人皮尔逊(KarlPearson)也证明了子女身高“回归到中等”的现象(regressiontomediocrity)。皮尔逊观察了1078对父子,以父亲身高作为解释变量X(自变量:IndependentVariable),儿子身高作为被解释变量Y(应变量:DependentVariable),绘制散点图,发现散点的趋势近乎一条直线。计算得X=67.6英寸,Y=68.7英寸。统计学湖北中医药大学预防医学教研室6统计学湖北中医药大学预防医学教研室7回归的现代释义普遍回归定律中,高尔顿的兴趣在于人类身高相对稳定的遗传学规律。但是现代统计学关心的是知道了父辈的身高,怎样去估计或预测子女的身高。回归的现代解释:研究应变量对自变量之间数量依赖关系的统计方法,当自变量取某个已知或设定值时,能够估计或预测与之相关的应变量所有可能取值的(总体)均值。统计学湖北中医药大学预防医学教研室8直线相关分析是否存在线性关系→性质和强弱;没有自变量和应变量之分;共变关系(双向),地位平等;不能用一个变量去预测或控制另一个变量。直线回归分析是否存在线性依存关系→依存的数量比例;有自变量和应变量之分;因果关系(单向),地位不平等;可以用自变量来预测或控制应变量的变化。统计学湖北中医药大学预防医学教研室9第二节直线回归当两变量间有直线相关关系,并且一个变量变化会引起另一个变量的变化,如果是确定性关系:数学函数方程。实际生活中,许多变量间的关系并不是严格函数关系,不能用函数方程来表达。但是,我们需要利用数学函数理论去研究两变量间的数量依存关系,为区别于数学上确定的函数方程,我们称这种关系式为直线回归方程,这种关系为直线回归。统计学湖北中医药大学预防医学教研室10直线回归的统计模型1、yi是xi的线性函数部分加上误差项εi;2、截距(intercept):本底水平;3、回归部分βx:y的变异中受x影响的部分;回归系数β:自变量x每改变一个度量单位,应变量y改变量的平均估计值;4、随机误差εi:又称残差(residual);是不能由自变量x所解释的y的变异部分;反映除自变量x之外的其他因素对y的影响。iiixy),0(~2Ni统计学湖北中医药大学预防医学教研室11建立直线回归方程计算参数和β的估计值a和b,建立模型的估计方程,即寻找一条与所有散点都最为接近(实测点到直线的纵向距离)的直线,使得总的预测误差最小。bxayˆ)(ˆiiiiibxayyy统计学湖北中医药大学预防医学教研室12寻找总的预测误差最小的直线X观测值预测值预测误差:残差iyˆibxayˆYiy统计学湖北中医药大学预防医学教研室13最小二乘法(leastsquaremethod)最小二乘(leastsquares)原则:每个观察点距离回归线的纵向距离的平方和最小,即残差平方和最小:xxxyllxxyyxxb2)())((xbya])ˆ(min[2iiyy直线一定经过“样本均数”点统计学湖北中医药大学预防医学教研室14计算例题资料的估计值a和b4.24xbya76.0/)(/))(()())((222nxxnyxxyxxyyxxllbxxxy统计学湖北中医药大学预防医学教研室15建立直线回归方程参数a、b的解释:1、斜率(b)当x增加1个单位时,y平均改变b个单位;2、截距(a)当x=0时y本底水平的平均估计值(注意有无实际意义,即x是否可取0)。xy76.04.24ˆ统计学湖北中医药大学预防医学教研室16(一)回归系数的假设检验(t检验)1、建立检验假设:H0:β=0,H1:β≠0,=0.052、计算统计量t:bbbSbSbSbt|||0|||回归分析的假设检验统计学湖北中医药大学预防医学教研室17残残残υMSSSnyySxy/2)ˆ(2Sb:回归系数的标准误;Sy.x:残差标准差(又称剩余标准差),即去除x对y的影响后y的变异程度。xxxyxyblSxxSS2)(2)ˆ(SS22nvlllyyxxxyyy残残,统计学湖北中医药大学预防医学教研室18例题回归系数的t检验127.6||bSbt602.1/2)ˆ(2残残残υMSSSnyySxy124.0)(2xxxyxyblSxxSSt>t0.05,13=2.160,拒绝H0,认为总体回归系数不为零,存在线性回归关系。13351.33)ˆ(SS22残残,vlllyyxxxyyy统计学湖北中医药大学预防医学教研室19(二)回归模型的假设检验(方差分析)1、建立检验假设:H0:回归模型不成立H1:回归模型成立,=0.052、计算统计量F:方差分析基本思想:将应变量y的总变异分解成两个部分,一个是处理因素(自变量x)带来的回归变异,另一个是随机误差带来的残差变异。统计学湖北中医药大学预防医学教研室20F检验就是将两部分的变异进行比较:①回归变异:又称回归均方,即y的变异中因为x对y的线性回归关系而带来的变异;②残差变异:又称残差均方,是除了自变量x之外的其他随机因素对y带来的变异;残残回回残回//SSSSMSMSF统计学湖北中医药大学预防医学教研室21ixyˆy)(yyiˆ)(iiyyˆy)(yyixyiy统计学湖北中医药大学预防医学教研室221)(SS2nvlyyyy总总,1/)ˆ(SS222回回,vlllbblyyxxxyxxxy上图可以看出:数学证明:即:SS总=SS回+SS残,v总=v回+v残2)ˆ(SS22nvlllyyxxxyyy残残,)ˆ()ˆ(yyyyyy222)ˆ()ˆ()(yyyyyy统计学湖北中医药大学预防医学教研室23例题的方差分析表变异来源离均差平方和(SS)自由度(v)均方(MS)F值回归96.298196.29837.536残差33.351132.565总变异129.64914F>F0.05,1,13=4.67,拒绝H0,认为自变量x与应变量y存在回归关系,回归方程成立。统计学湖北中医药大学预防医学教研室24相关系数与回归系数假设检验的关系rbtt相关系数和回归系数的t检验结果完全等价,并且与各自的方差分析结果完全等价(条件:分子自由度为1,即两变量相关)tF统计学湖北中医药大学预防医学教研室25直线回归分析的应用1、回归方程:确定变量间的数量依存关系。2、预测:利用已知、容易或可以测量的变量去预测未知、不易或不可测量的变量。由父亲的身高预测儿子成年后的身高3、控制:利用应变量反向控制自变量。铅作业时间(x)与血铅浓度(y)汽车流量(x)与空气氮氧化物浓度(y)统计学湖北中医药大学预防医学教研室26相关与回归的区别(一)资料要求不同:1、相关分析:不区分自变量和应变量;条件:x与y均为随机正态分布变量。2、回归分析:区分自变量和应变量;自变量x:可精确测量或严格控制的变量(Ⅰ型)或随机正态分布变量(Ⅱ型)。应变量y:随机变量,并且对于任一选定的自变量x,应变量y都有一个正态分布的总体与之对应,且各总体的方差齐性。统计学湖北中医药大学预防医学教研室27给定x,y是正态分布、方差相等示意图统计学湖北中医药大学预防医学教研室28给定x,y是正态分布、方差不等示意图统计学湖北中医药大学预防医学教研室29(二)应用方向不同:1、相关分析:研究两个变量间的相互关系,是一种双向的关系。用于判断两个变量是否有关系,性质是属于正相关还是负相关,关系是否密切。2、回归分析:研究两个变量在数量比例上的依存关系,是一种单向的关系。对两个变量做定量描述,研究变量间的数量依存关系,已知一个变量可以预测或控制另一个变量,并且得到定量的结果。统计学湖北中医药大学预防医学教研室30(三)参数性质不同:1、相关系数r:表达相关方向和密切程度。没有单位,取值范围【-1,1】;绝对值意义:绝对值越大,散点越趋向于一条直线,表明两变量的关系越密切。2、回归系数b:表示x每增大(或减小)一个单位,y平均增大(或减小)b个单位。有单位,取值范围无限;绝对值意义:绝对值越大,回归直线越陡,当x变化一个单位时,y的平均变化就越大。统计学湖北中医药大学预防医学教研室31相关与回归的联系(一)相关系数和回归系数的联系对于同一样本资料,已知变量x和y的标准差sx、sy,相关系数和回归系数可以互相推算。yxSSbrxySSrb统计学湖北中医药大学预防医学教研室32(二)方向一致且假设检验等价1、对同一样本资料,r与b正负符号一致。r为正时,b也为正,表示两变量是正相关,是同向变化(x变大y也变大)。r为负时,b也为负,表示两变量是负相关,是反向变化(x变大y会变小)。2、对同一样本资料,r与b的假设检验结果等价,可用r的检验代替b的检验。统计学湖北中医药大学预防医学教研室33(三)相关回归可以互相解释确定系数:相关系数的平方,反映x对y的回归贡献的程度大小。计算公式:应变量y的总变异中自变量x产生的回归变异所占比例,即自变量x的回归贡献对应变量y的总变异能解释的百分比。例题:r=0.862,R2=0.743,即胰岛素因素可解释血糖值变异的74.3%。743.0649.129298.962总回SSSSR统计学湖北中医药大学预防医学教研室34回归分析的注意事项1、实际意义:进行回归分析要有实际意义,不可把毫无关联的两个事物或现象用来作回归分析。例如:有人说,孩子长高,公园里的小树也在长高。但是计算孩子身高和小树高度之间的相关关系就毫无意义,用孩子的身高推测小树的高度则更加荒谬。2、绘制散点图:是否呈现直线趋势统计学湖北中医药大学预防医学教研室353、预测和控制可以内插,不宜外延利用直线回归方程进行预测或控制时,一般只适用于原始样本数据的研究范围,不能随意扩大范围。统计学湖北中医药大学预防医学教研室36TheclassisoverThanks!
本文标题:直线相关与回归
链接地址:https://www.777doc.com/doc-3957352 .html