您好,欢迎访问三七文档
当前位置:首页 > 行业资料 > 其它行业文档 > 04-第二章 线性代数模型的回归分析方法
12.线性代数模型的回归分析方法2.1概述对于许多具体问题,由于对过程的本质缺乏了解,或者由于过程本身太复杂,不可能准确地用机理模型描述该过程。为了建立这类过程的观测变量和自变量之间依存关系的数学表达式,常常可用多项式这一类函数去拟合实验数据,例如:j3j2j233j1j132j1j1223j3322j2221j113j32j21j10jxxbxxbxxbxbxbxbxbxbxbby由于这类模型的建立纯粹是根据实验值和曲线(即模型计算值)拟合的好坏为评判准则的,所以常称为经验模型。这类模型的函数形式有一定的任意性,模型的参数b0、b1、b2、b3……等纯粹是数学上的常数,并没有任何物理意义,一般也不用因次表示。此外,这类模型的应用仅限于实验数据覆盖的范围内,不能利用模型方程把结果外推到实验数据范围之外。所以,经验模型的应用常常是有局限性的。由于这类经验模型大多数是线性代数模型,或可化为线性代数模型。因此,模型参数值的估计和模型检验常常采用回归分析方法。所谓回归分析方法,就是利用统计方法,从大量实验数据中寻找观察变量与自变量之间的统计规律性。这类统计规律称为回归关系,有关回归关系的计算方法和理论统称回归分析。回归分析的研究内容是多方面的,本章主要讨论下述内容:1.对一组给定的实验数据,根据经验给出一个线性代数模型,确定变量与自变量之间的定量关系,即确定待定参数值;2.对所建立方程的可信度进行统计检验;3.从影响某一观测变量的许多自变量中,判断哪些变量对观察变量的影响是显著的,哪些是不显著的;24.介绍一种建立“最优”回归方程的方法——逐步回归方法;5.利用所得的回归模型进行预测和控制;用回归分析方法建立数学模型的基本思想,是把一个过程看作一个“黑箱”。所谓“黑箱”就是该过程的输入和输出都是已知的,但它的内部机理不清楚。“黑箱”的输入就是一些自变量的因子x1、x2、x3、xp,输出就是观察变量y。上述描述可用图2-1(右图)表示。虽然不能确切知道过程内部机理,但观察变量总可以表示为因子x1、x2、x3、xp的一个函数,即:y=f(x1、x2、x3、xp)这里的自变量......(.又称独立变量......).是指在实验手段控制下的那些变量,所谓独立是.....................直在实验中可以独立调节和控制,而不是指函数关系间的独立概念。..............................回归分析所研究的数学模型主要是线性代数模型,这里“线性”是指模型方程对待定参数是线性的,而对自变量本身却可以是非线性的。而模型主要有以下几种情况:1.模型对参数b是线性的,对自变量x是非线性的,如:3322110pp2210xlnb)xexp(bxbbyxbxbxbby2.模型对自变量x是线性的,对参数b是非线性的,如:23211032122110x)bexp(bx)bexp(byx)bb(lnxbxbby3.模型对自变量x和参数b都是非线性的,如:2211022110xbxbby)xbexp()xbexp(by在本章中讨论的线性模型均是指对参数是线性的,对线性模型的通式可写为:yx1x2x3黑箱示意图3y=b0f0(x1、x2、x3、xp)+b1f1(x1、x2、x3、xp)++bpfp(x1、x2、x3、xp)(2-1)上式x是自变量,即实验条件是一些已知量。函数fi的具体形式也是已知量,所以fi(x1、x2、x3、xp)可根据实验点计算求得。由于观察变量y对参数b是线性的,所以观测变量y对各个参数bi的一阶偏导数不再是参数b的函数,这就是线性代数模型的一个特点,在后面参数估计中充分利用了这个特点。在具体处理线性代数模型时,总是把上述模型通式化简写作:y=b0+b1x1+b2x2+bpxp(2-2)式中,y是观察变量(或称为因变量或响应量),x是自变量(或称为独立变量),b是待定的回归系数(模型参数)。利用经验模型描述一个具体过程有一定的任意性。主要是表现在函数选择上的任意性。在最简单的一类情况中,例如通过实验测定某物质的摩尔热容CP(KJ/molK)与温度T(K)之间的关系。在所要求的温度范围内,测定不同温度T1、T2、T3、TM下的CP值CP1、CP2、CP3、CM。然后用一个多项式去拟合实验点。如选用:y=b0+b1T+b2T2+b3T3+(2-3)函数(2-3)并不能反映CP(KJ/molK)与温度T(K)之间的本质关系,上述多项式函数形式仅是近似地逼近CP~T之间固有的反映其本质机理的函数。这种函数近似逼近真实的函数形式并不是唯一的。多项式仅仅是一种拟合性能较好的函数形式,从数学上可以知道,如果有M个实验点,在理论上必定可以用一个高于M-1阶的多项式去拟合实验数据,并使所有的实验点都准确无误地落在该多项式的曲线上,如图2-2所示。它表示了一4个6阶多项式通过6个实验点的图象。经验告诉我们,由于实验测定存在误差,这样的曲线并不合理,曲线应该平滑地在实验点之间穿过。在无特殊的理论依据时,相邻的二个实验点之间不应该出现剧烈的振荡。所以,经常采用的方法是选择较低的多项式函数来拟合实验数据。但是,若所选择的多项式的阶数太低,也是不合理的,可能遗漏重要的影响因素。因此,如何选择适当的经验模型的函数形式是建立经验模型的一个重要而又麻烦的问题。这里所介绍的回归分析方法也只能解决这个困难问题的一部分,在许多情况下还是要依赖专业方面的经验。2.2线性代数模型参数的最小二乘估计法最小二乘准则是模型参数估计方法中使用最广泛的一种。当一个过程可以形成如(2-2)式的线性代数模型描述时,观察变量y的第j个实验测量yj可以表示为:yj=b0+b1xj1+b2xj2+bpxjp+j(j=1,2,3,M)(2-4)式中,j表示随机变量,这里j是一组相互独立,而且都服从同一正态分布N(0,)的随机变量。变量x是可以精确测量或严格控制的。在上述条件下,变量yj是服从正态分布N(b0+b1xj1+b2xj2+bpxjp,)的随机变量。参数估计的任务就是要从M个实验数据中去寻找模型参数b0、b1、b2、bp的值。如果观察变量不存在实验误差,且模型参数完全准确地反映了过程,则M个实验点都应该准确无误地与模型计算值相同。为了确定参数b0、b1、b2、bp等p+1个参数值,则只要从M个实验点中任选p+1实验点的数据,便可以通过解方程的方法求出。如果Mp+1,即实验点数少于待定参数的个数,则参数值不定,可以有无穷多组参数值满足方程组。事实上,实验测定值总会存在误差,所以,对任何一个实验点来说,它并不是准确无误地等于模型的理论计算值。在Mp+1时,方程组(2-4)成为矛盾方程组,故不能用解方程组的方法求出参数b1、b2、bp的值,而只能用参数估计的方法,5根据实验点的误差具体情况去求待定参数的估计值0b、1b、2b、pb(这里用b表示参数b的估计值)。这里定义残差j为观察变量的实验值与模型计算之差,即:)xbxbxb(b-ypp22110jj(2-5)当模型能正确描述过程,且参数估计值也为模型真值时,则残差j等于实验误差j。所以最佳的参数估计值不仅应该使残差j小,而且应该使残差与实验误差j的分布相当。线性代数模型的最小二乘估计值就是一种最佳估计值,它具有统计上的无偏性和有效性。无偏性是指参数估计值的数学期望值等于参数真值,即E(b)=b。有效性是指参数的最小二乘估计值b的方差比其它一切估计值的方差都小,即D(b-b)最小。当0b、1b、2b、pb是参数b0、b1、b2、bp的最小二乘估计值时,于是得到线性回归方程:pp22110xbxbxbby0b、1b、2b、pb又称为回归方程的回归系数。对于每一组(xj1、xj2xjp),由方程(2-5)可以确定一个回归值jppj22j110jxbxbxbby。实验观测值yj与回归值jy之差,刻划了yj与回归模型计算值jy的偏离程度。所谓最小二乘估计值,就是使观察变量yj与回归值得jy的偏差的平方和最小的参数估计值,即使:Jj2jppj22j110j2jjp210xbxbxbbyy-y)b,b,b,b(S(2-6)最小时的0b、1b、2b、pb的值。它刻划了全部观察值与回归方程的偏离程度。在(2-6)中我们用j代替Mj,以简化符号。6由于)b,b,b,b(Sp210是参数0b、1b、2b、pb的二次函数,又是非负的,所以它的最小值总是存在的。根据微积分中的极值原理,要求的0b、1b、2b、pb是下列方程组的解:jjpjppj22j110jpjj2jppj22j110j2jj1jppj22j110j1jjppj22j110j00xxbxbxbby2bS0xxbxbxbby2bS0xxbxbxbby2bS0xbxbxbby2bS(2-7)方程组(2-7)称为正规方程组,它可以进一步简化为:jjjppj2jp2j1jjp1j1jjp0jjpjj2jpjjp2j2j22j1j2j1j0jj2jj1jpjjp1j2jj21j1j21j0jj1jjpjjp2jj21jj10yxbxbxxbxxbxyxbxxbxbxxbxyxbxxbxxbxbxybxbxbxbM(2-8)显然这是一个关于p+1个待定参数0b、1b、2b、pb的线性代数方程组。用矩阵的符号来表示。显然正规方程组的系数矩阵是一个对称矩阵,用XXAT来表示它,则:7)1p(MMpp2p12M1M22211211xxxxx1xx1xx1X矩阵X称为结构矩阵。在矩阵X中,除第一列外,其余表示了各个实验点的自变量数值,即实验点的位置。故此又称为实验矩阵。如实验数据表2-1一样。其它向量和矩阵的形式如下:1MM3211)1p(p2101MM3211)1p(p210bbbbbyyyyybbbbb表2-1实验数据表实验号x0x1x2xpY11x11x12x1py121x21x22x2py231x31x32x3py3M1xM1xM2xMpyM那么式(2-4)的模型可以写成矩阵形式:bXy(2-9)式中是M
本文标题:04-第二章 线性代数模型的回归分析方法
链接地址:https://www.777doc.com/doc-3328172 .html