您好,欢迎访问三七文档
当前位置:首页 > 行业资料 > 冶金工业 > 第十章直线回归和相关分析
第十章直线回归和相关分析英国生物学家高尔顿(FrancisGalton,1822—1911)提出“回归”一词。1889年出版的《自然遗传》(Naturalinheritance)一书中首次提出并阐明了“相关”的概念及计算两个变数相关程度的“相关系数”(Correlation)的概念。第一节回归和相关意义一、基本概念一般变量之间的关系可以分为两类:一类是函数关系,另一类是统计关系。函数关系是一种确定性的关系,一个变量的取值和变化完全取决于另一个或几个变量的取值和变化。统计关系是一种非确定性的关系,即一个变量的取值受到另一变量的影响,两者之间既有关系,但又不存在完全确定的函数关系。对具有统计关系的两个变量的资料进行初步考察的简便而有效的方法,是将这两个变量的n对观察值(x1,y1)、(x2,y2)、…、(xn,yn)分别以坐标点的形式标记于同一直角坐标平面上,获得散点图(scatterdiagram)。根据散点图可初步判定双变量X和Y间的关系,包括:①X和Y相关的性质(正或负)和密切程度;②X和Y的关系是直线型的还是非直线型的;③是否有一些特殊的点表示着其他因素的干扰等。二、回归分析和相关分析1.回归分析对两个变量进行回归分析是定量地研究X和Y的数值变化规律,根据这种规律可由一个变量的变化来估计另一个变量的变化。在回归模型中,两个变量有因果关系,原因变量称自变量(independentvariable),一般用X表示;结果变量称依变量(dependentvariable),以Y表示。X是已知的或是可控制的,没有误差或误差很小,而Y则不仅随X的变化而变化,还要受到随机误差的影响。2.相关分析对两个变量进行相关分析,其目的是研究X和Y间有无相关以及相关程度、相关性质(方向)。在相关模型中,两个变量是平行的,没有因果关系的自变量和依变量之分,且皆有随机误差。第二节直线回归一、直线回归方程(linearregressionequation)1.直线回归方程与参数估计上式读作“y依x的直线回归方程”。x是自变量;是和x的量相对应的依变量y的点估计值;a是x=0时的值,即回归直线在y轴上的截距;b是x每增加一个单位数时,平均地将要增加(b0时)或减少(b0时)的单位数,叫回归系数。分别对a和b求偏导数并令其为0,即可获得正规方程组(normalequations):算得的b、a值带入方程式,即可保证2.直线回归方程的计算〔例10.1〕某地一年级12名女大学生的体重与肺活量的关系数据列于表10.1,试求肺活量(L)对体重(kg)的直线回归方程。表10.1体重与肺活量关系散点图解:首先由表10.1算得回归分析所必须的6个一级数据:然后,由一级数据算得5个二级数据:故得表10.1资料的回归方程为:上述方程中回归系数和回归截距的意义为:当体重(x)每增加1kg时,则肺活量平均增加0.558L;若体重为0,则肺活量为0.0004L。限定x的区间为[42,58];如要在x42或58的区间外延,则必须有新的依据。3、直线回归方程的图示4.直线回归的估计标准误回归方程的估计标准误sy/x为:恒等式[例10.2]试计算由表10.1资料获得的回归方程的估计标准误。代入(10.5)式有:它的统计意义是:在范围内约有68.27%个观察点,在范围内约有95.45%个观察点等。5.直线回归的数学模型和基本假定Y总体的每一个值由以下三部分组成:①Y的总体平均数因此,总体直线回归的数学模型可表示为:其中,相应的样本线性组成为:直线回归的基本假定(1)Y变量是随机变量,而X变量则是没有误差的固定变量,至少和Y变量比较起来X的误差小到可以忽略。(2)在任一X上都存在着一个Y总体(可称为条件总体),它是作正态分布的,其平均数是X的线性函数:(3)所有的Y总体都具有共同的误差方差这一方差不因X的不同而不同,而直线回归总体具有试验所得的一组观察值(xi,yi)只是中的一个随机样本。(4)随机误差相互独立,并作正态分布,具有二、直线回归的假设检验1.回归关系的假设检验(1)t检验遵循v=n-2的t分布[例10.3]试检验例10.1资料回归关系的显著性。在例10.1和10.2已算得b=0.058826,SSx=306.66667,sy/x=0.288,故有:查附表4,t0.05,10=2.228,t0.01,10=3.169。现实得|t|=3.580大于t0.01107,表明在的总体中因抽样误差而获得现有样本的概率小于0.01。所以应否定H0:b=0,接受H0:b≠0,即认为一年级女大学生体重和肺活量是有真实直线回归关系的,或者说是极显著的。(2)F检验SSy将分解成两个部分,即:上式的即离回归平方和Q,是试验误差及y对x的非直线关系的影响引起的,它和x的大小无关,具有v=n-2,则为回归平方和,简记作U,它是由x的取值不同而引起的,具有=(n-1)-(n-2)=1。由即可测定回归关系的显著性。[例10.4]试用F检验法检测例10.1资料回归关系的显著性。在例10.1和10.2已算得SSy=1.8892,SSx=306.6667,SP=18.04,Q=0.8280,故U=SSy–Q=1.8892–0.8280=1.0612,并有方差分析列于表10.2。在表10.2,得到F=12.82F0.01=10.04,所以同样表明一年级女大学生体重和肺活量是有真实直线回归关系的。用t检验和用F检验的结果是完全一致的。(3)相关系数法相关系数即标准化的回归系数。因此,同一资料的回归关系与相关关系的显著与否是一致的,由于相关系数的计算和检验都比较容易,所以在实践中常采用计算相关系数假设检验来完成对回归关系的假设检验。该方法在直线相关中介绍三、回归预测与控制1.条件总体平均数Y/X()的区间预测根据回归模型的定义,每一个X上都有一个变量的条件总体,当X=x0时,该条件总体的平均数为其标准误为于是预测条件总体平均数Y/X()的95%置信区间为:2.个别值的预测这是以一定的保证概率估计任一X上Y单个预测值的存在范围。个别值的估计不仅受和b的抽样影响,而且还受到总体分布变异度的影响,当x=x0时,y0的标准误为:于是y0的(1–)×100%可靠度的区间预测为:例10.5〕测定迟熟早籼广陆矮4号在5月5日至8月5日播种时(每隔10d播一期),播种至齐穗的天数(x,d)和播种至齐穗的总积温(y,℃)的关系于表10.3。试计算在x=65时,95%可靠度的总积温平均值和个别值的预测区间。表10.3广陆矮4号播种至齐穗天数x和总积温(℃)的关系解:由表10.3可算得:SSx=444.0000,SSy=55273.4022,SP=4718.2000,进而得:a=1496.0444–(10.63×58)=879.50(℃)故有直线回归方程当x=65时,其点预测为:在x=65处,及y的标准差分别为:因而,当x=65时,95%可靠度的总积温平均值预测区间为:而95%可靠度的总积温个别值y预测区间为:对于表10.3资料,95%可靠度的预测区间的变化见图10.3。图10.3也叫预测图图10.3表10.3资料的95%可靠度预测图3、控制控制问题是预测问题的反问题,若要求Y的个别值在内的可靠性为(1-)×100%,应把X控制在什么范围?首先,由于Y个别值(1-)×100%可靠度的上下限分别为因而当控制个别值时,应满足。同理当控制平均值时,控制区间应满足:对个别值的控制应满足方程组(x1x2)对平均值的控制应满足方程组(x3x4):控制问题亦可利用预测图来解决第三节直线相关分析一、相关系数1.相关系数公式表示X和Y相关密切程度及其性质的统计数-––相关系数。一般以表示总体相关系数,以r表示样本相关系数。图10.5三种不同的总体相关散点图相关系数是两个变量标准化离差的乘积之和的平均数。由回归分析亦可方便地得出同样结果。当实际观测值的点完全落在回归直线上,Q=0,SSy=U,故;当y的变异和x完全无关时,U=0,SSy=Q,故r=0。所以r的取值区间为[-1,1]。2、决定系数由x不同而引起的变量回归平方和占y变量总平方和的比率,或由y不同而引起的x变量的平方和占x变量总平方和的比率称为决定系数(determinationcoefficient),用r2表示。所以决定系数即为相关系数r的平方值。决定系数和相关系数的区别在于:首先,除|r|=1和0的情况外,r2总是小于|r|,这可以防止对相关系数所表示的相关程度作夸张的解释。例如,r=0.5,只是说明由x的不同而引起的变异(或由的不同而引起的x变异)平方和仅占总变异(或x总变异)平方和的25%,而不是50%。其次,r可正可负,而r2则一律取正值,其取值区间为[0,1]。所以,r2一般不表示相关性质,只表示相关程度,r2一般应在r显著时才需计算。3、相关系数和决定系数的计算〔例10.7〕试计算〔例10.1〕资料女大学生体重和肺活量的相关系数。解:在〔例10.1〕已算得该资料的SSx=306.6667,SSy=1.8892,SP=18.04,故代入表明一年级女大学生肺活量的变异平方和仅有56.18%是体重的不同所造成,其余的43.82%是由其他因素造成的。r2一般在r为显著时才需要计算。二、相关系数的假设检验1.相关关系的假设检验(1)t检验当n≥5、=0时,如取则此t值服从v=n-2的t分布,由之可检验H0:r=0其r的抽样标准误sr为:[例10.9]试检验上题所得r0.7495的显著性。在此有查附表4,t0.01,10=3.169,|t|=3.581t0.01,所以H0:r=0被否定,计算结果说明,一年级女大学生体重与肺活量呈正相关,即体重愈重,肺活量愈大。(2)查表法有人已将不同自由度n=(n-2)下,达到0.05和0.01显著水平的临界ra值编成附表11。因此,当算得r值后,只要查出相应的值与之比较,就可以确定接受.如本例|r|=0.7495r0.01=0.708,所以否定H0。第四节直线回归与相关的应用要点1、回归和相关分析要有学科专业知识作指导.2、要严格控制研究对象(X和Y)以外的有关因素.3、直线回归和相关分析结果不显著,并不意味着X和Y没有关系.4、一个显著的r或b并不代表X和Y的关系就一定是直线的,因为它并不排斥能够更好地描述X和Y的各种曲线的存在。5、虽然显著的直线相关和回归并不意味着X和Y的真实关系就是直线的,但在X和Y的一定区间内,用直线关系作近似描述是允许的。6、一个显著的相关或回归并不一定具有实践上的预测意义。7、为了提高回归和相关分析的准确性,两个变量的样本容量n(观察值对数)要尽可能大一些.小结:回归分析:1、先计算6个一级数据和5个二级数据。2、计算r,根据|r|查ra值表检验H0:r=0,从而间接检验H0:b=0(因为相关显著回归必显著,相关不显著回归亦必不显著。)3、若回归显著,计算回归方程。(不必再检验回归关系)相关分析:1、计算r2、根据|r|查ra值表检验H0:r=0本章学习要点1、掌握回归方程的建立、假设检验.2、理解回归估计标准误sy/x的意义3、理解直线回归的数学模型和基本假定4、相关系数、决定系数的含义,掌握计算相关系数和决定系数的方法.5、相关系数的假设检验。
本文标题:第十章直线回归和相关分析
链接地址:https://www.777doc.com/doc-2165757 .html