您好,欢迎访问三七文档
当前位置:首页 > 金融/证券 > 综合/其它 > 生物统计学VIII直线回归与相关分析
本章摘要第一节:回归和相关的概念第二节:直线回归分析第三节:直线相关生物统计学(VIII)第七章:直线回归与相关分析西安交通大学数学与统计学院May,2018本章摘要第一节:回归和相关的概念第二节:直线回归分析第三节:直线相关回归与相关的方法探讨:两个或多个变量之间的关系直线回归与相关是最基本和简单的最小二乘法建立直线回归方程,变量y的离差平方和可以分解为回归平方和U和离回归平方和Q通过F检验或t检验的方法可检验直线回归关系的显著性既可以描述两个变量的依存关系,又可以用来进行预测与控制相关系数反应了两个变量的相关程度和性质,可根据t检验或者r检验对相关系数进行显著性检验直线回归与相关系数存在一定的联系,对于两个变量而言,可先计算期相关系数,通过显著性检验后,可进一步研究其回归关系。本章摘要第一节:回归和相关的概念第二节:直线回归分析第三节:直线相关前面讨论的统计方法,通常只涉及一个变量。例如:不同品种的产量比较试验,每一品种的平均数反映了产量的集中点,标准差反映了产量的离散程度;方差分析及多重比较可检验不同品种产量平均数间的差异是否显著;这些研究都涉及产量一个变量,而产量不但与品种有关,还与其他因素,如播种密度及灌水量等相关——需研究两个或以上变量间的相互关系。多变量间相互关系有两类变量间存在的确定的函数关系,如长方形面积S=ab等,这些变量依公式关系而存在,这类例子在生物界较少存在。变量间存在的不确定的函数关系:人的身高与体重存在关系,但不能用精确的函数来表示。统计上,用回归(regression)与相关(correlation)的分析方法探讨多变量间的变化规律。本章摘要第一节:回归和相关的概念第二节:直线回归分析第三节:直线相关变量间的相互关系,常见的有因果关系与平行关系因果关系:一个变量的变化受另一个变量或几个变量的制约平行关系:两个或以上变量之间共同受到另外因素的影响。对两个变量,用x;y来表示,其观测值对为(x1;y1);;(xn;yn)可用散点图(scatterchart)来直观的看出x与y的关系两变量间关系的性质和程度两变量间关系的类型,是直线形还是曲线形是否有异常观测值的干扰等散点图只定性研究了变量之间的规律性,定量研究需根据观测值将其理论关系推导出来。本章摘要第一节:回归和相关的概念第二节:直线回归分析第三节:直线相关本章摘要第一节:回归和相关的概念第二节:直线回归分析第三节:直线相关如果两个变量的关系属于因果关系,一般用回归分析(regressionanalysis)来研究。表示原因的变量称为自变量(independentvariable),常用x表示;一般自变量是固定的,没有随机误差表示结果的变量称为因变量或依变量(dependentvariable),常用y表示,具有随机误差若对于变量x的每一个可能值xi,都有随机变量yi的一个分布与之对应,则称随机变量y对于x存在回归关系研究“一因一果”,即一个自变量与一个因变量的回归分析称为一元回归分析(onefactorregressionanalysis)一元回归:直线回归(linearregression)与曲线回归(curveregression)研究“多因一果”,即多个自变量与一个因变量的回归分析称为多元回归分析(multiplefactorregressionanalysis)多元回归:多元线性回归(multiplelinearregression)与多元非线性回归(multiplenonlinearregression)回归分析的目的:揭示呈因果关系的变量间的联系形式,建立回归方程,利用建立的回归方程由自变量来预测与控制依变量。本章摘要第一节:回归和相关的概念第二节:直线回归分析第三节:直线相关如果两个变量的关系属于平行关系,一般用相关分析(correlationanalysis)来研究。变量x与y间无自变量与依变量之分,且都有随机误差。若对于任一随机变量的每一个可能值,另一随机变量都有一个确定的分布与之对应,则称这两个随机变量间存在平行关系对两个变量间的直线关系进行相关分析称为直线相关(linearcorrelation)分析或简单相关(simplecorrelation)分析对多个变量进行相关分析时,研究一个变量与多个变量间的线性相关称为复相关(multiplecorrelation)分析研究其余变量保持不变的情况下,两个变量间的线性相关称为偏相关(partialcorrelation)分析。相关分析研究的是两个变量间相关程度和性质或一个变量与多个变量之间相关的程度。本章摘要第一节:回归和相关的概念第二节:直线回归分析第三节:直线相关(一)直线回归方程的建立回归:对于变量x的每一个可能值xi,都有随机变量yi的一个分布与之对应当x=xi时,yi的平均数yjx=xi(称为y的条件平均数conditionalmean)与之是相对应的这种情况下,可利用直线回归方程(linearregressionequation)来描述x与y的均值的关系,其一般形式为^y=a+bx该式被称为“y依x的直线回归方程”。其中,^y为与x值相对应的依变量y的总体平均数的点估计值;a为当x=0时的^y值,即直线在y轴上的截距(intercept)——回归截距(regressionintercept)b为回归直线的斜率(slope),称为回归系数(regressioncoefficient):自变量改变一个单位,依变量平均增加或减少的单位数。本章摘要第一节:回归和相关的概念第二节:直线回归分析第三节:直线相关如果两个变量在散点图上呈线性关系,就可用直线回归方程来进行描述为了使^y=a+bx能最好的反映y与x两变量间的数量关系,根据最小二乘(methodofleastsquare),a;b应使依变量的观测值与回归估计值的离均差平方和最小,即Q=n∑1(y ^y)2=∑(y a bx)2=最小值根据极值原理,必须使Q对a,b的一阶偏导数为0@Q@a= 2∑(y a bx)=0@Q@b= 2∑(y a bx)x=0整理得到a=y bx;b=∑(x x)(y y)∑(x x)2=SPSSx本章摘要第一节:回归和相关的概念第二节:直线回归分析第三节:直线相关分子∑(x x)(y y)为x的离均差和y的离均差乘积和(meandeviationproductsum),简称乘积和(productsum),记作SP或SSxy分母∑(x x)2为x的离均差平方和(meandeviationsumofsquare),记作SSx。确定a;b后,将x的取值代入直线回归方程,可计算^y值,研究y与^y的关系,可发现其3个基本性质性质1:Q=∑(y ^y)2=最小值性质2:∑(y ^y)=0性质3:回归直线通过中心点(x;bary)有^y=a+bx=y bx+bx=y+b(x x)本章摘要第一节:回归和相关的概念第二节:直线回归分析第三节:直线相关例7.1研究黏虫孵化历期平均温度(x;◦C与历期天数(y;d)之间的关系,试验资料与下表。试建立直线回归方程。平均温度(x)11.814.715.616.817.118.819.520.4历期天数(y)30.117.316.713.611.910.78.36.7(1)计算回归分析的6个一级数据:∑x=134:70;∑x2=2323:19;∑y=115:30;∑y2=2039:03;∑xy=1801:67;n=8(2)由一级数据计算5个二级数据本章摘要第一节:回归和相关的概念第二节:直线回归分析第三节:直线相关(2)由一级数据计算5个二级数据SSx=∑x2 (∑x)2n=55:1788SSy=∑y2 (∑y)2n=377:2688SP=∑xy (∑x)(∑y)n= 139:6938x=∑xn=16:8375y=∑yn=14:4125(3)计算b值和a值b=SPSSx= 2:5317;a=y bx=57:0400(4)建立直线回归方程^y=57:0400 2:5317x或^y=14:4125 2:5317(x 16:8375)本章摘要第一节:回归和相关的概念第二节:直线回归分析第三节:直线相关黏虫孵化历期平均温度每增加1◦C,孵化历期就减少2.5317d,当历期平均温度为0时,孵化历期为57.04d。由于本例x的取值只为11.8~20.4,x=0不在此区间,是否符合该直线回归方程的变化规律,有待于进一步验证。1112131415161718192021temperature05101520253035days本章摘要第一节:回归和相关的概念第二节:直线回归分析第三节:直线相关(二)直线回归的数学模型与基本假设在直线回归模型中,y总体的每一个观测值可分解为3个部分,即y的总体平均数,因x引起y的变异(x x)以及y的随机误差。因此,直线回归的数学模型为y=y+(x x)+ϵ或y=+x+ϵ上式中个部分含义如下所述(1)常量:是总体回归截距,是回归直线在纵坐标的截距,它是y的本底水平,即x对y没有任何作用时y的数量表现。它属于不能用x来估计的部分。(2)x部分:为总体回归系数,x表示依变量y的取值改变中,由y与自变量x的线性回归关系所引起变化的部分,即可由x直接估计的部分。(3)回归估计误差ϵ:为随机误差,也称为回归估计误差(errorsofregression)或残差(residual)。它表示依变量y的取值改变中由自变量x以外的其他所有未进入该模型或未知但可能与y有关的随机和非随机因素共同引起变化的部分,即不能由x直接估计的部分。本章摘要第一节:回归和相关的概念第二节:直线回归分析第三节:直线相关如果是样本资料,直线回归的数学模型为y=y+b(x x)+e或y=a+bx+e式中,a;b;e分别是;;ϵ的估计值。本章摘要第一节:回归和相关的概念第二节:直线回归分析第三节:直线相关(二)直线回归的基本假定按上述直线回归模型进行回归分析,应符合如下基本假定:(1)x是没有误差的固定变量,至少和y比较起来,x的误差是小到可以忽略的,而y是随机变量,且具有随机误差。(2)x的任一值都对应着一个y总体,且呈正态分布,其平均数yjx=+x,方差2yjx受偶然因素影响,不因x的变化而改变。(3)随机误差ϵ是相互独立的,且呈正态分布,服从N(0;2ϵ)。直线回归分析是建立在以上这些基本假定之上,如果试验资料不满足这些假定,就不能进行直线回归分析,但有些资料经适当处理后可满足这些假设,然后再进行直线回归分析。本章摘要第一节:回归和相关的概念第二节:直线回归分析第三节:直线相关三、直线回归的假设检验任何两个变量之间都可通过前面的方法建立一个直线回归方程,该方程是否有意义,关键在于回归是否达到显著水平。即使x;y所在的总体回归系数=0,由于抽样误差,其样本回归系数b也不一定为零,因此需用方差分析或t检验进行是否为零的假设检验。需要分析依变量y的变异来源。本章摘要第一节:回归和相关的概念第二节:直线回归分析第三节:直线相关(一)直线回归的变异来源从图中看出,在直线回归中,依变量y是随机变量,y的总变异y y可以分解为两部分,即由x变异引起的变异^y y和误差引起的变异y ^y,因此∑(y y)2=∑[(^y y)+(y ^y)]2=∑(^y y)2+∑(y ^y)2+2∑(^y y)(y ^y)本章摘要第一节:回归和相关的概念第二节:直线回归分析第三节:直线相关由直线回归方程^y=y+b(x x)得∑(^y y)(y ^y)=∑b(x x)[(y y) b(x x)]=∑b(x x)(y y) b2∑(x x)2=bSP b2SSx=bSP bSP=0则有∑(y y)2=∑(^y y)2+∑(y ^y)2其中,∑(y y)2为依变量y的离均差的平方和,称为离均差平方和或总平方和,记作SSy或SS总,表明随机变量y的总变异。本章摘要第一节:回归和相关的概念第二
本文标题:生物统计学VIII直线回归与相关分析
链接地址:https://www.777doc.com/doc-7672789 .html