您好,欢迎访问三七文档
因果关系:回归分析平行关系:相关分析四、直线回归的区间估计当直线回归关系显著之后,既可用样本统计数a、b来估计总体参数α、β,又可利用回归方程去估计某一x值对应y总体的平均数和预测单个y值所在的区间。(一)回归截距和回归系数的置信区间)1(22/2xxyaSSxnssxxyaSSxnss2/1asatastaL1astaL2bstbL1bstbL2回归截距a的方差为:回归截距a的标准误和t值为:as总体回归截距a的置信区间为:总体回归系数β的置信区间为:P141例7.5(二)的置信区间和单个y的预测区间由,故的标准误为:条件总体平均数的95%置信区间为:[L1=-t0.05,L2=+t0.05]xy/)(ˆxxbyyyˆxxyxxyxybyySSxxnsxxSSsnsxxsss2/22/2/222ˆ)(1)()(xy/yˆyˆysˆysˆysys2/22/2/2/222xyxxyxyxybyysxxSSsnssxxsss)()(xxySSxxns2/)(11单个y值的标准误为:保证概率为0.95的y的预测区间为:[L1=-t0.05,L2=+t0.05]yˆyˆP142例7.6(三)和单个y观测值置信区间图示首先取若干个等距的x值(x取值愈密,作图愈准确),算得与其相应的、、和、的值;然后再由和算得各x上的L1和L2,并标于图上;最后将各个L1和L2分别连成曲线即可。yˆysˆysystˆ0.05yst0.05ystyˆˆ0.05ystyˆ0.05xy/试制作例1资料的y估计值包括和y在内有95%可靠度的置信区间图。表2例1资料的置信区间和y的预测区间的计算yˆXY/ysˆystˆ0.05ysyst0.051L2L(2)(3)(4)(6)(7)(8)[,(1)x的95%置信区间计算y的95%预测区间计算(5)[L1,L2]]3032343637384042444615.613.411.29.07.96.84.62.40.2-2.02.211.751.371.131.091.121.351.722.172.665.24.13.22.72.62.63.24.15.16.310.4,9.3,8.0,6.3,5.3,4.2,1.4,-1.7,-4.9,-8.3,20.817.514.411.710.59.47.86.55.34.33.952.723.533.463.433.463.533.693.924.219.38.88.38.28.18.28.38.79.39.96.3,4.6,2.9,0.8,-0.2,-1.4,-3.7,-6.3,-9.1,-11.9,24.922.219.517.216.015.012.911.19.57.9一代三化螟盛发期估计及其95%置信限画出的图像,依次标出(x,L1)和(x,L2)坐标点,再连接各(x,L1)得线,连接各(x,L2)得线。连接各(x,L2)得线。和所夹的区间即包括在内有95%可靠度的置信区间。称(x,)的连线,(x,)的连线。其所夹的区间即为y的95%的预测区间或预测带。3月下至4月中旬平均温度累积值例1资料的y估计值及其95%置信带yˆCDABABCDXY/1LGH2LEFAB-15-10-5051015202528303234363840424446五、直线回归的应用及注意问题(一)直线回归的应用(二)应用直线回归时的注意问题第三节直线相关一、相关系数和决定系数二、相关系数的假设测验三、相关系数的区间估计四、应用直线相关的注意事项一、相关系数和决定系数(一)相关系数(X,Y)总体没有相关,则落在象限Ⅰ、Ⅱ、Ⅲ、Ⅳ的点是均匀分散的,因而正负相消,=0。Nyxyx1))((当(X,Y)总体呈正相关时,落在象限Ⅰ、Ⅲ的点一定比落在象限Ⅱ、Ⅳ的多,故一定为正;同时落在象限Ⅰ、Ⅲ的点所占的比率愈大,此正值也愈大。Nyxyx1)()(当(X,Y)总体呈负相关时,则落在象限Ⅱ、Ⅳ的点一定比落在象限Ⅰ、Ⅲ的为多,故一定为负;且落在象限Ⅱ、Ⅳ的点所占的比率愈大,此负值的绝对值也愈大。Nyxyx1))((的值可用来度量两个变数直线相关的相关程度和性质。但是,x和y的变异程度、所取单位及N的大小都会影响其大小。这些因素的影响是可以消去的。方法就是将离均差转换成以各自的标准差为单位,使成为标准化离差,再以N除之。Nyxyx1))((可定义双变数总体的相关系数为:上式中的已与两个变数的变异程度、单位和N大小都没有关系,是一个不带单位的纯数,因而可用来比较不同双变数总体的相关程度和性质。相关系数是两个变数标准化离差的乘积之和的平均数。NyyxxyxN1122)()())((yyxyxxyx样本的相关系数r因为:在回归分析时分成了两个部分:一部分是离回归平方和Q,另一部分是回归平方和U=(SP)2/SSx。因此,又可有定义:yxSSSSSPyyxxyyxxr22)()())((2)(yySSy2)ˆ(yy2)ˆ(yyyxyxySSSSSPSSSSSPyyyySSUr/)()()ˆ(222r的取值区间是[-1,1]。双变数的相关程度决定于|r|,|r|越接近于1,相关越密切;越接近于0,越可能无相关。r的显著与否还和自由度有关,df越大,受抽样误差的影响越小,r达到显著水平的值就较小。正的r值表示正相关,负的r值表示负相关。而相关系数r的正或负和回归系数b是保持一致。决定系数决定系数(determinationcoefficient)定义为由x不同而引起的y的平方和占y总平方和SSy=的比率;也可定义为由y不同而引起的x的平方和占x总平方和SSx=的比率,其值为:2ˆ)(yyU2)(yy2ˆ)(xxU2)(xxyyxSSbSPSSSSSPr22)(yySSQSSU1所以决定系数即相关系数r的平方值。决定系数和相关系数的区别在于:①除掉|r|=1和0的情况外,r2总是小于|r|。这就可以防止对相关系数所表示的相关程度作夸张的解释。例如,r=0.5,只是说明由x的不同而引起的y变异(或由y的不同而引起的x变异)平方和仅占y总变异(或x总变异)平方和的r2=0.25,即25%,而不是50%。②r是可正可负的,而r2则一律取正值,其取值区间为[0,1]。因此,在相关分析由r的正或负表示相关的性质,由r2的大小表示相关的程度。相关系数和决定系数的计算P146例7.8一些夏季害虫盛发期的早迟和春季温度高低有关。江苏武进连续9年测定3月下旬至4月中旬旬平均温度累积值(x,旬·度)和水稻一代三化螟盛发期(y,以5月10日为0)的关系,得结果于表7.1。试计算其直线回归方程。x累积温y盛发期35.534.131.740.336.840.231.739.244.212169273139-1表7.1累积温和一代三化螟盛发期的关系x2xy2yyxn=9=35.5+34.1+…+44.2=333.7=35.52+34.12+…+44.22=12517.49=12+16+…+(-1)=70=122+162+…+(-1)2=794=(35.5×12)+(34.1×16)+…+[44.2×(-1)]=2436.4首先由表7.1算得回归分析所必须的6个一级数据(即由观察值直接算得的数据):nxx22)(nyy22)(nyxyxxnxynySSx==12517.49-(333.7)2/9=144.6356=794-(70)2/9=249.55562436.4-(333.7×70)/9=-159.0444333.7/9=37.077870/9=7.7778*SSy=SP=xSSSP/xby因而有:b=-159.0444/144.6356=-1.0996[天/(旬·度)]a==7.7778-(-1.0996×37.0778)=48.5485(天)然后,由一级数据算得5个二级数据:故得表7.1资料的回归方程为:上述方程中回归系数和回归截距的意义为:当3月下旬至4月中旬的积温(x)每提高1旬·度时,一代三化螟的盛发期平均将提早1.1天;若积温为0,则一代三化螟的盛发期将在6月27—28日(x=0时,=48.5;因y是以5月10日为0,故48.5为6月27—28日)。由于x变数的实测区间为[31.7,44.2],当x<31.7或>44.2时,y的变化是否还符合=48.5-1.1x的规律,观察数据中未曾得到任何信息。=48.5485-1.0996xyˆ二、相关系数的假设测验(一)的假设测验测验一个样本相关系数r所来自的总体相关系数是否为0,所作的假设为H0:对HA:≠0。在的总体中抽样,r的分布随样本容量n的不同而不同。r的抽样误差:0021nrsr2当时:或此t值遵循df=n-2的t分布,由之可测验H0:。对于同一资料,线性回归的显著性等价于线性相关的显著性。将上式移项,即可得到自由度和显著水平一定时的临界r值:22tdft0rsrt21rnr20r=P136例7.9三、相关系数的区间估计)11lg(1513.1)11ln(5.0rrrrz)3(1nzzzL1zzL2)1()1(22LLeerP137例7.10四、应用直线相关的注意事项1、直线相关分析时对变量的要求2、相关系数应进行检验3、变量应尽可能多4、正确理解相关系数的含义直线回归与相关的内在关系回归与相关间的内在联系:(1)相关系数是标准化的回归系数回归系数b是有单位的,但若对b作消去单位的标准化处理,即对b中x和y的离均差以各自的标准差sx和sy为单位,则有:222222)()()())(()())((xxxxyyyyxxxxsssyyxxsxxsyysxxxyxxyx所以,有时把相关系数称为标准回归系数。(2)相关系数r是y依x的回归系数by/x和x依y的回归系数bx/y的几何平均数。若对同一资料计算x依y的回归,则有bx/y=SP/SSy,因此rSSSSSPyyxxyyxxyx22)()())((rrSSSSSPSSSPSSSPbbyxyxyxxy22//(3)线性回归方程也可用相关系数表示因为xyxyyxxxyssrSSSSSSSSSPSSSPb/所以由(9·4)表示的回归方程可改写成:)(ˆxxssryyxy(4)线性回归和离回归的平方和也可用相关系数表示。yyyxxSSrSSSSSSSPSSSPU222yySSrUSSQ)(12直线回归和相关的应用要点(1)回归和相关分析要有学科专业知识作指导。(2)要严格控制研究对象(X和Y)以外的有关因素,即要在X和Y的变化过程中尽量使其它因素保持稳定一致。(3)直线回归和相关分析结果不显著,并不意味着X和Y没有关系,而只说明X和Y没有显著的线性关系,它并不能排除两变数间存在曲线关系的可能性。(4)一个显著的r或b并不代表X和Y的关系就一定是线性的,因为它并不排斥能够更好地描述X和Y的各种曲线的存在。(5)在X和Y的一定区间内,用线性关系作近似描述是允许的,它的精确度至少要比仅用描述y变数有显著提高。(6)一个显著的相关或回归并不一定具有实践上的预测意义。(7)为了提高回归和相关分析的准确性,两个变数的样本容量n(观察值对数)要尽可能大一些,至少应有5对以上。
本文标题:生物统计学十四
链接地址:https://www.777doc.com/doc-2201273 .html