您好,欢迎访问三七文档
当前位置:首页 > 商业/管理/HR > 质量控制/管理 > 气象统计方法第五章b
气象统计方法主讲:温娜南京信息工程大学大气科学学院2014年9月本课件主要参考南信大李丽平老师的课件第五章多元线性回归---逐步回归方法引言在气象预报中,对预报量的预报常常需要从可能影响预报y的诸多因素中挑选一批关系较好的作为预报因子,应用多元线性回归的方法建立回归方程来作预报,但如何才能保证在已选定的一批因子中得到最优的回归方程呢?逐步回归分析方法就是针对这一问题提出的一种常用方法。下面从提出这一方法的基本思路、计算过程出发来作介绍。第一节回归系数的显著性检验在多元线性回归方程的建立中,尽管最后都作了方程的统计检验,但并不意味着在p个因子中,每个因子对预报量y的影响都是重要的。需要对每个因子进行考察,若某个因子对预报量y的作用不显著,那么在多元线性回归方程中它前面的系数就可能近似为0,因此,检验某一因子是否显著等价于检验假设:0:0kH要对作假设检验,自然就要寻找它的样本统计量和与它有关的统计量的分布。因为最小二乘估计的是随机变量()的线性函数,由于这些随机变量是遵从正态分布,则也遵从正态分布。kkbkbiyni~1kb在假设条件成立下,统计量遵从自由度为(1,n-p-1)的F分布,其中,为矩阵中对角线上第k个元素。确定信度以后,查表求出标准值,若,说明该因子方差贡献显著,保留该因子,否则可以考虑从回归方程中剔除出去。12pnQcbFkkkkkc1)(XXCFFi预报因子数目增多的优缺点:优点:一般而言,回归方程中包含的因子个数越多,回归平方和就越大,残差平方和越小,残差方差的估计就越小,预报值的置信区间就越小,方程一般也较容易通过检验。缺点:但因子数增多,也给方程增加了不少与预报量关系不大的因子,给预报带来下面三个明显缺点:1)因子增多,计算量增大,计算时间增多(计算量增大)。2)方程中若含有对y不起作用或者作用极小的因子,残差平方和不会由于这些变量的增加而减少多少,相反由于Q自由度减小,残差方差估计值增大,使预报置信区间估计值增大;3)由于存在对预报量y影响不显著的因子,随之带来许多其它与预报量无关的随机因素,影响回归方程的稳定性,反而使预报效果下降。关键问题:既要选择对预报量影响显著的因子,又要使回归方程的残差方差估计很小,这样才有利于气象预报。建立预报量y与预报因子x的‘最优’回归方程?如何选择预报因子建立最优的回归方程呢?—————逐步回归方法逐步回归的三种方案1、逐步剔除方案2、逐步引进方案3、双重检验的逐步回归方案逐步剔除法1、概念:从包含全部变量的回归方程中逐步剔除不显著的因子。2、方案:假定有4个预报因子,首先用这4个因子建立回归方程,然后对每个因子检查的大小。kkkcb2因为在做单个因子检验时,上式中的分母是不变的(不同因子检验时),因此,只比较各因子的分子部分即可,从它们中找出最小者作F检验。若检验结果显著,则其余因子自然显著;若检验结果不显著,则剔除这一因子,然后对少一个因子的方程重复上一过程。12pnQcbFkkk3、因子的方差贡献这一方案的步骤中每次仅比较统计量,这个统计量是十分重要的,常被称为因子的方差贡献,或称为偏回归平方和,记为从中选出方差贡献最小者,记为,再作F检验,检验时使用下面的公式kkkkcbV24,3,2,1k),,2,1(pkVkminV其中,l为检验时回归方程中所含因子个数,表示回归方程含l个变量时的残差平方和。1)(minlnQVFl)(lQ4、存在的三个问题1)因子的方差贡献代表什么意义?2)为何不同时把几个不显著的因子从方程中剔除出去,而是每次剔除一个?3)在计算过程中,每剔除一个因子就要重新计算新方程中的回归系数,当因子较多时,计算量很大,如何解决?我们知道,回归平方和是所有因子对预报量的总贡献。所考虑的因子越多,回归平方和越大,若去掉一个因子,回归平方和只会减小,不会增加。减少的数值越大,说明该因子在回归中所起的作用越大,表明该因子越重要,可用此来衡量该因子的方差贡献大小。下面介绍这个量的大小。设为l个变量对应的回归平方和,为l-1个变量,即去掉第k个因子时的回归平方和,它们的差就是去掉第k个因子后,回归平方和的减少量。这部分叫做偏回归平方和,可以衡量每个因子在回归中所引起的作用的大小。)(lUlxxx,,,21)1(lU)1()(llkUUV在剔除因子过程中,假如方差贡献都比较小,我们只能剔除其中的最小者,而不应该全部去掉。因为这两个因子之间可能存在密切的相关关系,剔除第一个因子后,其对y的影响可能很大程度转移到第二个因子对y的影响上。所以回归平方和不会因此减小很多。但如果同时去掉两个因子,就会比较多的减少回归平方和,从而影响回归的精度。1x1x2x新老回归系数之间的关系:当剔除第k个因子后,)(*kibccbbkkkikii逐步引进方法1.概念在一批待选的因子中,考查他们对预报量y的方差贡献,挑选所有因子中方差贡献最大者,经统计检验是显著的进入回归方程。如从等因子中考察哪个因子方差在一元回归方程中贡献最大,故首先计算:其中,表示回归方程中无任何因子时的回归平方和,此时为0。12,,,pxxx(1)(0)kVUU1,2,...,kp(0)U假如在p个因子中,的方差贡献最大,记为,则据回归系数的检验公式遵从F分布的统计量进行检验:若显著,则引进该因子。kxmaxVmax(1)1VFQnl设到l步,方程已有l个因子。若考虑从p-l个因子中引进哪个变量时,还是要考察他们各个因子引进后的方差贡献,仍选取最大者,记为,使用统计量作检验,其中表示在将要引入回归方程中的l+1个因子时,回归方程的残差平方和。如此在方程中逐个地引入因子。maxVmax(1)(1)1lVFQnl(1)lQ注意:这样得到的方程并不能保证其中所有因子都是显著的。因为各因子之间存在相关关系,所以引入新变量后,原有的变量就不一定仍然显著。双重检验的逐步回归方案上述两个方案各存在一定缺点:逐步剔除计算量大;逐步引入计算量小,但不一定保证最后的方程是“最优”的。双重检验的基本思想:将因子一个个引入,引入因子的条件是该因子的方差贡献显著;同时,每引入一个新因子,要对老因子逐个检验,将方差贡献变为不显著的因子剔除。优点:计算简便,由于每步都作检验,保证最后所得方程中所有因子都是显著的。方法:利用求解线性方程中求解求逆同时并行的方法,使得在计算因子方差贡献和求解回归系数同时进行。()()()()()()(1)()()()(,)(,)1(,)(,)lkjlkkllkjiklijllkkijlkkliklkkaikjkaaaaikjkaaikjkaaikjka2413逐步回归方法的一般步骤和计算公式第一步准备工作从标准化变量出发,建立求标准回归系数的标准方程组。将系数矩阵化为相关矩阵R,并与常数矩阵放在一起组成增广矩阵,同时为了检验的方便,又在此矩阵中添上了一行),组成一个方阵,记为,假定有p个待选因子,并开始作逐步回归计算。1(,...,)yyyrr(0)R第二步引入因子从p个待选因子中考虑引一个因子进入回归方程,建立每个因子的回归方程:选方差贡献最大的,然后计算引进后的标准回归系数。假定在前l步中已引入l个因子,考虑p-l个未引入的因子中的方差贡献时,计算第k个因子方差贡献的公式为12,,...,zzzpxxxˆ(1,2,...,)zzzkybxkp()21()[]lkylklkkrVr计算中可利用前l步消去求逆的结果,即用在作l次消去求逆变成矩阵后阵中的元素。如果发现第k个因子方差贡献最大,即用它进一步作下面的显著性检验。这时利用下面统计量作检验。(0)R()lR(1)maxlkVV在显著性水平下,若,则认为该因子方差贡献显著,引入该因子。(1)(1)(1)1lklVFQnl)1()()1(lklyylVrQFF检验显著后,认为可以引进到方程中,然后对该因子所对应的列进行消去,并求出引进该因子后回归方程的标准回归系数。第三步剔除因子当后来引入因子后,原来已引入的因子方差贡献会发生变化,可能变为不显著的,要进行剔除。剔除的标准也可利用统计检验进行。仅在第三个因子引入后才考虑剔除假定方程中已引入l个因子,现考虑在方程中各个因子所起的作用,即它们的方差贡献。设第k个因子为最小,即利用下面的统计量进行显著性检验()minlkVV在显著性水平下,若,则认为该因子方差贡献不显著,可剔除。1)()(lnrVFlyylkFF)(2)()(][lkklkylkrrV第四步计算结果设结果引入了l个因子进入回归方程,消去过程从变到,则回归方程为其中,标准回归系数为如果要化为距平形式的回归方程,则计算(0)R()lR1122ˆzzzzzzlzlybxbxbx()lzkkybrykzkxsbbs这时距平形式的残差平方和为、回归平方和为复相关系数为回归方程的均方差无偏估计量为可进行预报值的置信区间估计。()()llyyyyyyQSQSryyUSQ()1lyyyyURRS()()ˆ11llyyyyyySQSrnlnl引入()21()[]lkylklkkrVr(1)(1)(1)1lklVFQnl)1()()1(lklyylVrQ)(2)()(][lkklkylkrrV1)()(lnrVFlyylk剔除注意:上一步刚引入的变量下一步不可能剔除;上一步刚剔除的变量下一步不可能引入,使得前三步可以连续引入三个变量。对例4作双重逐步回归,建立预报量y与预报因子X的最优回归方程。引入x4引入x1引入x2剔除x4X3不引进最优回归方程作业任选一逐步回归方案,试建立y与预报因子的最优回归方程。非线性回归两个变量之间的相关关系并非线性关系,而呈现某种非线性的曲线关系,如:双曲线、二次曲线、三次曲线、幂函数曲线、指数函数曲线(Gompertz)、S型曲线(Logistic)对数曲线、指数曲线等,以这些变量之间的曲线相关关系,拟合相应的回归曲线,建立非线性回归方程,进行回归分析称为非线性回归分析多项式回归对一元(或多元)非线性回归问题,经常可以化为多项式回归处理,假定预报量与一预报因子x的关系为p次多项式,则第i时刻多项式回归方程:其中,是随机误差(相互独立变量),服从正态分布ie),0(2N多项式回归问题可以化为多元线性回归问题来解决,如果令于是,非线性回归方程就转化为一般多元线性回归模式:利用求解线性回归方法,确定回归系数可以转化为线性的曲线回归一般的非线性回归模型一般的非线性回归模型可以写为:式中为含p个因子变量第i个样品向量,为非线性回归系数向量,为误差,为第i个样品的预报量,为的任意非线性函数。确定非线性回归系数向量可用Gauss-Newton方法,对及的非线性函数可在回归系数p+1维空间中任一点附近邻域作Taylor展开,即则非线性函数的Taylor展开表示为:其中一般地求非线性回归系数可用迭代法求出,步骤如下:
本文标题:气象统计方法第五章b
链接地址:https://www.777doc.com/doc-4947561 .html