您好,欢迎访问三七文档
当前位置:首页 > 商业/管理/HR > 销售管理 > 第十二章非线性回归分析
第十二章非线性回归分析第一节可化为直线回归的非线性回归•有些形式的曲线可以采用适当的数据转换方法转化为直线,从而用直线回归的方法来分析。一、指数曲线•当α0时其曲线形状见图12.1。•对公式(12.1)取导数•可知随着x的增加,β0的曲线的绝对生长速度越来越快,而β0的曲线的衰减速度越来越慢。•再对公式(12.1)取二阶导数•因此β是生长或衰减的加速度,又称相对生长率或相对衰减率,是固定不变的。•指数曲线的回归分析模型为:•要求ε相互独立且服从同一对数正态分布。令•并用直线回归分析的方法解得α和β的估计值•从而建立指数曲线回归方程•〔例12.1〕棉花红铃虫的产卵数(y,粒/头)与温度(x,℃)有关,调查结果见表12.1,试作回归分析。表12.1棉花红铃虫温度x(℃)与产卵数y(粒/头)的调查结果•解:首先作调查数据的散点图(图12.2)•将y做对数转换,•根据表12.1中的x与y’可求得•图12.2棉花红铃虫温度x与产卵数y的散点图•据此建立指数曲线回归方程•回归方程的显著性检验,选用相关系数检验法。•查r0.01(5)=0.874,|r|=0.99260.874,因此指数曲线回归关系在0.01水平上显著(实际P=9.01×10-6)。带常数的指数函数•当β0时其曲线见图12.3。其中,α0的曲线经常用来描述孵化过程,又称孵化曲线。•由于是3参数曲线,所以要先求K值。选3个等距的x值所对应的y值,有•然后作数据转换y’=ln(y-K),a’=lna•y’=ln(y-K),a’=lna(12.8)即可将其线性化并估计a和b值了•其图形见图12.4。•幂函数曲线常用于描述体积、重量等倍数性资料的变化规律。采用与指数曲线回归模型类似的方法,令y’=lny,x’=lnx,a’=lna,’=ln(12.10)即可将幂函数曲线回归模型线性化从而建立幂函数曲线回归方程〔例12.2〕玉米杂交种四单19的果穗直径(x,cm)与穗粒重(y,g)间的关系如表12.2,试作回归分析。表12.2玉米果穗直径x(cm)和穗粒重y(g)的调查数据图12.5玉米果穗直径x和穗粒重y的散点图(左)和对数散点图(右)•解:从调查数据的散点图(图12.5)中可以看出x与y之间呈一种中间略下凹的曲线关系,x’与y’之间呈直线关系,因此作幂函数曲线回归分析。由表12.2可求得•查r0.01(6)=0.834,|r|=0.99220.834,因此幂函数曲线回归关系在0.01水平上显著(实际P=1.26×10-6),可建立幂函数曲线回归方程:•其图形也见图12.5,不同的x值对应的值见表12.2。•本例也可作直线回归和指数曲线回归分析,结果均极为显著。•还可能求出其它也显著的曲线形式。实践中通常不存在支持某种曲线形式的绝对依据,选择合适的曲线形式的考虑之一是所研究问题的生物学意义。如温度或时间与生长量的关系一般应选用指数曲线,而直径或长度与重量或体积的关系一般可选用幂函数曲线等。•考虑之二是曲线的显著性。可根据散点图的特征试配几种不同的曲线,从中选择显著程度最高或较高的。本例从散点图看可配合直线、指数曲线和幂函数曲线,显著程度相差不多,但以幂函数曲线的生物学意义最为吻合,因此较合适。三、对称S形曲线回归•许多害虫的日发生量在暴发期以前逐日增加,过了暴发期又逐日减少,基本上是对称的,接近正态分布。因此其累积发生量就成为上下对称的S形曲线,与正态累积函数曲线差不多,见图12.6。图12.6对称S形曲线•以y为累积发生量,x为日期并令•可将此对称S形曲线转换为线性并估计a和b了。•y’一般称为概率单位,可由概率单位表中查出。由回归方程求得后也可从该表中反查出。•〔例12.3〕江苏东台县测定了1972年越冬代棉红铃虫不同时期(x,以5月31日为0)的化蛹进度(y,%)结果见表12.3,试作回归分析。表12.3棉红铃虫不同时期x(以5月31日为0)的化蛹进度y(%)图12.7棉红铃虫不同时期x和化蛹进度y的散点图•解:从散点图(图12.7)中看出x与y基本上呈对称的S形曲线关系,将y转换为概率单位y’后与x呈直线关系,因此作x与y’的直线回归分析。•查r0.01(8)=0.765,|r|=0.99830.765,因此回归关系在0.01水平上显著(实际P=3.64×10-11),也即有概率单位y’与日期x间的直线回归方程•成立。将各x值代入回归方程求出同并反查出值列于表12.3的最后两列,可见吻合得相当好。四、不对称S形曲线回归•动植物生长的普遍规律是先越来越快,过了生长高峰以后由于内外条件的限制则越来越慢直至停止。生长速度的变化呈不对称的单峰曲线,因此累积生长量呈不对称的S形曲线。有许多描述不对称S形曲线的方程,如•等,也可用y的概率单位对x的对数作线性回归。但是最常用且最符合生物学意义的还是Logistic曲线,见图12.8。•如果无阻抑时的生长情况可用指数曲线•来描述,有限制条件时的生长情况可用孵化曲线•来描述,那么整个生长周期可用Logistic曲线•可知当yK时绝对生长速度为βy,而当接近K时绝对生长速度趋近于0。再根据二阶导数•可求出拐点为•此时的生长速度最快,为•生长速度在此之前逐渐加快,在此之后逐渐下降直至y=K时为0。•令•然后解得•即可求出Logistic曲线回归方程•如有多组数据(可含1个已用过的x值)均符合此条件,可用加权法平均之,即•〔例12.4〕东北农业大学2004年测定了玉米品种“东农252”的灌浆天数(x,d)与百粒重(y,g)的变化关系,结果见表12.4,试作Logistic曲线回归分析。表12.4玉米品种“东农252”的灌浆天数x(d)与百粒重y(g)•解:从散点图(图12.9)可看出试验数据呈不对称的S形分布,因此作Logistic曲线回归分析。取等距的3个x值5、30和55,用相应的y值1.92,19.35和38.07求得•然后做数据转换•转换后的y’见表12.4的第3列,其与x之间呈近似的直线关系,见图12.9。图12.9玉米品种“东农252”的灌浆天数x与百粒重y的散点图•根据表12.4可计算得•查r0.01(9)=0.735,|r|=0.99560.735,回归关系在0.01水平上显著(实际P=1.45×10-10),因此得Logistic曲线回归方程:•此曲线的拐点为•即灌浆30d左右的灌浆速率最快,大约为第二节多项式回归•多项式函数y=0+1x+2x2+…+kxk•的曲线见图12.10。图12.10二次和三次多项式曲线•任何一种连续函数都可以用分段多项式来逼近。•多项式回归的通用数学模型为此模型即转化为一般的多元线性回归模型(11.1)一、二次多项式回归•令•可得正规方程组•并从中解出β0、β1和β2的估计值•建立二次多项式曲线(抛物线)回归方程•为了进行回归的显著性检验需将y的平方和分解为回归平方和及离差平方和两部分U=b1L1y+b2L2y,Q=Ly,y-U•各有2个和n-3个自由度。•对回归系数的显著性检验不能完全沿用偏回归系数的检验方法,已知一次回归的平方和是•因此二次回归增加的平方和是•各有一个自由度。•〔例12.5〕有一小麦施肥量试验的结果见表12.5,试作二次多项式回归分析。图12.11小麦施肥量(x,10kg/hm2)与产量(y,10kg/hm2)的散点图•解:散点图(图12.11)显示施肥量x与产量y间的呈抛物线关系,因此做二次多项式曲线回归分析。根据表2.5的数据可求出•得正规方程组•解之有•得到二次多项式回归方程•回归方程进行显著性检验•首先分解平方和•然后进行F检验,结果见表12.6。显然,二次回归比一次回归增加的回归变异是显著的,因此用二次多项式曲线来描述本例的施肥量与产量之间的关系是合适的。表12.6小麦施肥量与产量试验结果的方差分析表•抛物线属单峰曲线,其峰顶(谷底)值称极值。令二次多项式的导数为零•可解得极值•即:•由于肥料与粮食的价格不同,最高的产量不一定能获得最大的经济效益。设肥料的单价为px,粮食的单价为py。令•即可解出最佳效益的施肥量•xmax是px=0也即肥料资源无限时的施肥量,•当px0时xopt必然小于xmax。•本例如设px=15,py=5,则•相应的产量为成本及效益比较图12.12小麦施肥量试验的总收入p1和去掉肥料成本后的收入p2的变化曲线二、高次多项式回归分析•一般称最高次数k≥3的多项式为高次多项式。令•x1=x,x2=x2,…,xk=xk•可得多项式回归方程的矩阵形式•y=Xb•及其正规方程组•X’X=X’y•并用多元线性回归分析的方法解得•b=(X’X)-1X’y,•一般来说多项式曲线回归分析的次数不宜太高,否则不但计算量大而且X’X阵容易退化(xj间高度相关),求得的b不稳定。为了确定合适的次数需要检验每提高一次所增加的回归平方和,但除了最高次项所增加的回归平方和•以外,其余的只能由本次与低一次多项式的回归平方和之差求出。为此可采用消去变换求解正规方程组,从一次项开始每一次消去运算都可得到本次多项式的系数和逆阵,由此可求出本次所增加的回归平方和。•当k=3时问题更简单。因为一次项的回归平方和是三次比两次增加的回归平方和是所以两次比一次增加的回归平方和是U2=U-U1-U3•〔例12.6〕测定某水稻土用HCl和Na2CO3调酸后的pH值x和铵态N含量y的结果见表12.7,试作多项式回归分析。表12.7某水稻土PH值x和铵态N含量y的测定结果图12.13水稻土PH值(x)和铵态N含量(y)的散点图解:散点图(图12.13)显示x与y间呈近似的倒抛物线关系,部分点的拟合不算太好,因此做三次曲线回归分析可能有较好的效果。根据表12.7的数据可求得正规方程组42b1+462b2+4200b3=34.9462b1+5250b2+48972b3=552.74200b1+48972b2+466332b3=6316.6解之有由此得三次多项式回归方程为了检验回归方程的显著性对y平方和进行分解表12.8例12.6的方差分析表在0.05水平上一次和二次回归是显著的,但三次项不显著应去掉。与多元线性回归的方法一样,新的一次和二次回归系数为回归截距为得二次多项式回归方程第三节作物密度与产量关系的回归分析•作物的种植密度与产量之间的关系通常是非线性的。设x为种植密度,Y为群体产量,则个体产量y=Y/x,其倒数y-1=x/Y意为获得单位产量所需的株数。根据y-1与x的变化规律来看密度-产量关系可分为四种基本类型,它们的区别见图12.14。图12.14四种密度-产量关系曲线一般说来等差型和混合型适用于群体调节能力较强的作物如小麦和水稻等,等比型和抛物线型适用于群体调节能力较差的作物如玉米等。一、等差型密度-产量回归分析•等差型密度-产量关系中y-1与x的关系为•意为随着种植密度x的变化形成单位产量所需株数y-1呈等差级数线性变化。α的含义为x=0时的y-1即形成单位产量所需的最少株数。β的含义为x每变化一个单位时形成单位产量所需株数的变化数,也即形成单位产量所需的面积。此时y与x的关系为•呈双曲线。Y与x的关系为•呈渐近线,见图12.15。图12.15等差型x-y,x-Y曲线•当x=0时可得y的极大值即无限稀植时的单株产量ymax=–1当x=∞时可得Y的极大值即无限密植时的群体产量Ymax=–1•因为y–1与x的关系是线性的,所以只要令•即可运用直线回归分析的方法解出α和β的估计值a和b了。•〔例12.7〕低肥条件下春小麦密度x(104苗/hm2)与产量Y(10kg/hm2)的试验结果见表12.9,试分析密度与产量间的关系。表12.9低肥下春小麦等比型密度-产量回归关系分析数据表图12.16低肥下春小麦的密度x与群体产量Y和单株产量y的散点图•解:从散点图(图12.16)可看出随着x的增加Y达最大值后基本不再变化,有点象一条渐进曲线,而y却逐步下降,有点象一条指数曲线,因此作等比型密度-产量回归分析。利用表12.9右边的数据求出•查r0.01(4)
本文标题:第十二章非线性回归分析
链接地址:https://www.777doc.com/doc-2163757 .html