您好,欢迎访问三七文档
当前位置:首页 > 行业资料 > 其它行业文档 > 13第7章直线回归与相关分析
第七章直线回归与相关★本章讨论两个变量间的相互关系问题例如S=πr2也称做函数关系常见于力学、电学、光学、运动学等在农学和生物学中较少见1、确定性关系可用精确的数学表达式表示一、变量之间的关系2、不确定性关系不能用精确的数学表达式来表示例如,作物产量与其影响因素温度、雨量等之间的关系,一个变量只是部分地引起另一个变量的变化,没有一个确定的数值与之对应常见于农业科学和生物学中从统计学角度讲,确定性关系与不确定性关系的区别仅在于前者不存在随机误差,而后者不可避免地具有试验误差﹡。统计学上把变量之间既存在着密切关系,又不能由一个变量(或几个变量)的数值准确地求出另一个变量数值的关系称为相关关系,并把存在相关关系的变量称为相关变量。相关变量间的关系分为两种情况:◆因果关系•一个变量是原因,另一个变量是结果•原因变量可事先设计、固定,结果变量则带有随机误差例如:播种期与产量,播种期是原因变量,可事先设计,而产量是结果变量,带有随机误差◆平行关系•两个变量相互影响,互为因果•二者都有随机误差例如水稻的穗长与每穗粒数回归分析(regressionanalysis)对因果关系变量的统计分析二、回归和相关分析•建立由X来预测Y的线性回归方程式•预测X取某一定值时Y的变化区间相关分析(correlationanalysis)对平行关系变量的统计分析研究两个变量之间线性相关的性质和密切程度考察n对试验数据的关系:(x1,y1)、(x2,y2)、…、(xn,yn)通常可采用以下方法:1、作散点图第一节直线回归分析2、建立直线回归方程••••••••图1(直线,正相关)图2(直线,负相关)图3(曲线)••••••••••••••••••••••xyxxyy1、作散点图:表示该直线的斜率,是x每增加一个单位数时,平均地将要增加或减少的单位数,称做回归系数。yˆ2、建立直线回归方程其中,yˆ:是x=0时的值,即回归直线在y轴上的截距,称做回归截距;:y的回归估计值yˆ:观测值(x,y)abbxayˆ••••••••••yxˆyye对于n对(x,y),理论上可以作无数条直线21ˆ()nQyy最小但是哪一条最能代表x与y在数量上的互变关系?••••••••••xy显然y的观察值和回归估计值之间的偏差越小越好,因此有:••••••••••yxQ称为离回归平方和nnxbxaybQbxayaQ110)(202xyxbxayxban22211ˆ()()nnQyyyabx最小222()()()xaybxnxyxybnxxxxyyspssxxxssspxxyyxxbxbya2SP:是自变数x的离均差和依变数y的离均差的乘积和,简称乘积和SSx:平方和这种求解a、b的方法称做最小二乘法,或最小平方法。由此a、b构成的直线回归方程具有以下三个性质:2ˆ()ˆ)0)yyyyxy最小(回归直线通过(,点①②③3建立直线回归方程实例【例7.1】一些夏季害虫盛发期的早迟和春季温度高低有关。江苏某县测定1956-1964年间3月下旬至4月中旬旬平均温度累积值x(单位:旬·度)和一代三化螟蛾盛发期y(以5月10日为0)的关系于下表,试计算其直线回归方程。X(累积温)35.534.131.740.336.840.231.739.244.2Y(盛发期)12169273139-1-5051015202934394449ˆ48.54851.0996yx(月/日)5/255/205/155/105/55/30x,3月下旬至4月中旬平均温度累计值y,一代三化螟盛发期i作散点图ii计算a和b,建立直线回归方程⑴首先计算6个一级数据:∑x=35.5+34.1+…+44.2=333.7∑x2=35.52+34.12+…+44.22=12517.49∑y=12+16+…+(-1)=70∑y2=122+162+…+(-1)2=794∑xy=(35.5×12)+(34.1×16)+…+〔44.2×(-1)〕=2436.4n=97778.79700778.3797.3330444.159)707.333(914.2436)(15556.249)70(91794)(1222nyynxxyxnxySPynySSy6356.144)7.333(9149.12517)(1222xnxSSx⑵计算5个二级数据:得到该资料的直线回归方程:xyxy1.15.48ˆ0996.15485.48ˆ⑶计算2个三级数据:)(5485.48)0778.370996.1(7778.7)/(0996.16356.1440444.159天度旬天xbyaSSSPbx意义:◆若积温x=0,则一代三化螟蛾的盛发期在6月27-28日◆当3月下旬至4月中旬的积温(x)每提高1旬·度时,一代三化螟蛾的盛发期平均将提早1.1天iii计算线性回归的估计标准误回归值和实测值存在着一定的偏差,可用估计标准误来度量:xy1.15.48ˆ由线性回归方程所估计的2)ˆ(22nyynQSxy22()ˆ()yxSPQyyssSS其中公式表明:①Sy.x值愈小,各个观察点愈靠近回归直线,估计愈准确②Sy.x值愈大,各个观察点离回归直线愈远,估计愈不准确2)ˆ(22nyynQSxy例如:计算上例的回归估计标准误解:6670.746356.144)0444.159(5556.249)(22xySSSPSSQ(天)226.3296670.742.nQsxy结果表明,当用回归方程预测一代三化螟蛾盛发期时,有一个3.266天的估计标准误xy1.15.48ˆ4线性回归的假设测验若变数x和y所属总体并不存在直线回归关系,但由其中的一个样本总可以得到一个直线回归方程,显然这样的回归方程是靠不住的,因此必须进行显著性检验i、t测验0:;0:0AHH(2)bbttdfnS.yxbxSSSS其中︱t︱﹥t0.01,7=3.50,否定H0:,接受即积温和一代三化螟蛾盛发期是有真实的直线回归关系的例如:试测验例7.1资料回归关系的显著性解:05.42715.000996.12715.06356.144266.3.tSSSSxxyb0:;0:0AHH:0AHii、F测验(2(11))yQnSnUS(1)Y变异的分解Y的总变异=因X所引起的变异+误差变异因而有:22()(),yxxSPQSSSSSPUSS又称为回归平方和(2)F测验0:;0:0AHH1(1,2)(2)UFFnQn例如:试测验例7.1资料回归关系的显著性解:Q=74.6670U=SSy-Q=249.5556-74.6670=174.88861174.888616.40(2)74.6670(92)UFQnF﹥F0.01(1,7)=12.25,否定H0:,接受:0AH变异来源dfSSMSFF0.01回归1174.8886174.888616.40**12.25离回归774.667010.6667总变异8249.5556表例7.1资料的回归关系显著性测验对于df1=1,可以证明:2tF本例,F=16.40,t=-4.05,因而有t2=F5、线性回归方程的预测根据线性回归方程式:bxayˆ可以预测某一点(1)Y的平均值--••••••yx0yy100.05.ˆ,yxLyts200.05.ˆyxLyts(2)Y的观察值---ˆ100.05.ˆ,yxLytsˆ200.05.ˆyxLyts其中:00ˆyabx2..1()yxyxxxxssnss2ˆ..1()1yxyxxxxssnss例如:对例7.1资料,试计算:①当3月下旬至4月中旬的积温为40旬·度时,历年的一代三化螟蛾平均盛发期在何时(取95%可靠度)?②某年3月下旬至4月中旬的积温为40旬·度,试估计该年的一代三化螟蛾盛发期在何时(取95%可靠度)?①当x0=40旬·度时,总体平均数y的估计值为:=48.5485-(1.0996×40)=4.56可算得,0ˆy35.16356.144)0778.3740(91266.3)(122.xxyssxxnsxys.所以包括在内有95%可靠度的置信区间为L1=4.56-(2.36×1.35)=1.4(即5月12日)L2=4.56+(2.36×1.35)=7.7(即5月18日)即3月下旬至4月中旬积温为40旬·度的年份,其一代三化螟蛾平均盛发期的95%置信区间为〔1.4,7.7〕,或5月12日—18日。L1=4.56-(2.36×3.53)=-3.8(即5月6日)L2=4.56+(2.36×3.53)=12.9(即5月23日)53.36356.144)0778.3740(911266.3)(1122.xxyssxxnsxys.ˆ故包括y在内有95%可靠度的置信区间为④当x0=40旬·度时,总体单个观察值y的估计值为:=48.5485-(1.0996×40)=4.56即某年3月下旬至4月中旬积温为40旬·度时,该年一代三化螟蛾平均盛发期的95%置信区间为]〔-3.8,12.9〕,或5月6日—23日第二节直线相关分析简单相关分析是研究双变量线性相关的性质和密切程度的统计方法。一、相关系数与决定系数1、相关系数:双变量标准化正态离差乘积和的平均数·221)()())(()()(1YYXXYYXXσYYσXXNyxN正相关负相关无相关0ρ0ρ0ρxyⅠⅡⅢⅣxyⅠⅡⅢⅣxyⅠⅡⅢⅣ□相关系数的符号决定了相关的性质0()()XXYY对样本,相关系数用r来表示:yxSSSSSPyyxxyyxx22)()())((r2、决定系数在Y的总平方和中,由X引起的平方和所占的比例:yxySSSSSPSSU2r□决定系数的大小决定了相关的密切程度201111,0,,,,00,,1,yyUrSSrUSSQSXYXrrrSyUQSYSUQXyY与无相关与完全相关与部分相关3相关系数和决定系数的计算【例7.3】计算【例7·1】资料3月下旬至4月中旬积温和一代三化螟蛾盛发期的相关系数和决定系数22(0.8371)0.7007r159.04440.8371.144.6356249.5556xyxySPrSSSS结果表明,一代三化螟盛发期(y)与3月下旬至4月中旬积温(x)之间表现为负相关,盛发期的早迟有70.07%来源于3月下旬至4月中旬的积温在一个的总体中随机抽样,由于抽样误差,r≠0。所以,必须测定是否等于0?二、相关系数的显著性检验01.t检验:02:0,:0(2)12ArrHHrttdfnSrSn其中1df1df1df2.F检验02122:0,:0(1,2)(1)/2AHHrFFdfdfnrn3.r检验||,0rr表明【例7.4】试测验例7.3所得r的显著性。0:0,:0AHH20222220.050.010.83714.0511(0.8671)292(0.8671)16.4(1)/(2)(1(0.81.2671))/(92)0.666,0.798.3.,0rtrnrFHHrnrrA否定接受:
本文标题:13第7章直线回归与相关分析
链接地址:https://www.777doc.com/doc-3060699 .html