您好,欢迎访问三七文档
1最小二乘法及其应用1.引言最小二乘法在19世纪初发明后,很快得到欧洲一些国家的天文学家和测地学家的广泛关注。据不完全统计,自1805年至1864年的60年间,有关最小二乘法的研究论文达256篇,一些百科全书包括1837年出版的大不列颠百科全书第7版,亦收入有关方法的介绍。同时,误差的分布是“正态”的,也立刻得到天文学家的关注及大量经验的支持。如贝塞尔(F.W.Bessel,1784—1846)对几百颗星球作了三组观测,并比较了按照正态规律在给定范围内的理论误差值和实际值,对比表明它们非常接近一致。拉普拉斯在1810年也给出了正态规律的一个新的理论推导并写入其《分析概论》中。正态分布作为一种统计模型,在19世纪极为流行,一些学者甚至把19世纪的数理统计学称为正态分布的统治时代。在其影响下,最小二乘法也脱出测量数据意义之外而发展成为一个包罗极大,应用及其广泛的统计模型。到20世纪正态小样本理论充分发展后,高斯研究成果的影响更加显著。最小二乘法不仅是19世纪最重要的统计方法,而且还可以称为数理统计学之灵魂。相关回归分析、方差分析和线性模型理论等数理统计学的几大分支都以最小二乘法为理论基础。正如美国统计学家斯蒂格勒(S.M.Stigler)所说,“最小二乘法之于数理统计学犹如微积分之于数学”。最小二乘法是参数回归的最基本得方法所以研究最小二乘法原理及其应用对于统计的学习有很重要的意义。2.最小二乘法所谓最小二乘法就是:选择参数10,bb,使得全部观测的残差平方和最小.用数学公式表示为:21022)()(miniiiiixbbYYYe为了说明这个方法,先解释一下最小二乘原理,以一元线性回归方程为例.iiixBBY10(一元线性回归方程)2由于总体回归方程不能进行参数估计,我们只能对样本回归函数来估计即:iiiexbbY10)...2,1(ni从上面的公式可以看出:残差ie是iY的真实值与估计值之差,估计总体回归函数最优方法是,选择10,BB的估计量10,bb,使得残差ie尽可能的小.总之,最小二乘原理就是选择样本回归函数使得所有Y的估计值与真实值差的平方和为最小,这种确定10,bb的方法叫做最小二乘法。最小二乘法是回归分析中的最基本的方法。回归方程一般分为2类,线性回归方程和非线性回归方程。2.1线性回归最小二乘法最小二乘法是由实验或调查的数据,建立线性型公式的一种常用方法.在建立线性型公式中,虽然有很多种不同的方法来求样本回归函数(即真实总体回归函数的估计值),但是在回归分析中最广泛应用的方法是最小二乘法.如果变量yx和有精确的线性关系比如说baxy,那么iiyy即观测值与回归值是相等的.事实上现实世界中的诸多变量的关系未必都是如此,由于受诸多随机因数的干扰使得物与物之间没有那种很明确的对应关系.比如说人的身高和体重就是一个对应,我们都知道长的高的人不一定就重,同理长的矮的人也不一定就轻.但身高和体重的确存在着一定的关系,而这种关系并非是baxy所能确定的.那么我们要寻求身高和体重之间的关系就需要通过数学的方法.首先调查统计得出数据;其次把数据描绘出来;然后拟合一条跟已有的图象最接近的曲线,这样就可以相对地将身高和体重之间的关系表示出来.在处理类似的事情中常常用到最小二乘法.2.2非线性回归最小二乘法3非线性回归的种类很多,常用的有抛物线方程(2YabXcX)、指数方程(xYab)等。设已知列表函数()(0,1,...,)iiyfxim,并且我们想用一个通常的()nm次多项式01...nnnpxaaxax(1)去近似它。问题是应该如何选择01...naaa,,,使npx能较好地近似列表函数fx。按最小二乘法,应该选择01...naaa,,,使得2010...mniniiSaaafxpx,,,(2)取最小。注意到S是非负的,且是01...naaa,,,的2次多项式,它必有最小值。求S对01...naaa,,,的偏导数,并令其等于零,得到010...0mnkiiniiiyaaxaxx(0,1,...,)kn进一步,可以将它们写成101...mmmmkkkkniiiiniioioioioyxaxaxax(0,1,...,)kn引进记号mmkkkikiiioiosxuyx和则上述方程组为001101021110112,,nnnnnnnnnsasasausasasausasasau(3)4它的系数行列式是01121112.nnnnnnsssssssssX由(0,1,,2)iins的定义及行列式性质,可以断言21011,,,.(1)!nnXWn(4)此处符号W表Vandermonde行列式,而是对所有可能的(0,1,,)iin求和(每个i可以取值01,,,,mxxx并且当ij时ij。由(4)式及Vandermonde行列式的性质可知,当01,,,mxxx互异时,012220101011110.,,,nnnnnnnW从而,100nX方程组(3)有唯一解01,,,naaa,且它们使(2)取极小值如此,我们应用最小二乘法找到了fx的近似多项式nxp.在利用最小二乘法组成和式(2)时,所有点ix都起到了同样的作用,但是有时依据某种理由认为中的某些项的作用大些,而另外一些作用小些(例如,一些iy是由精度较高的仪器或操作上比较熟练的人员获得的,自然应该予以较大的信任),这在数学上表现为用和20miiniifxpx(5)5替代和(2)取最小值.0i,且11nii,i通常称之为权;而(5)为加权和.用多项式01nnnxaaxaxp去近似一个给定的列表函数(即给出的一组观测值iiyfx时。需要确定的参数是01,,,naaa;而nxp可以看成是01,,,naaa的线性函数.但是有时在利用观测或实验数据去确定一个经验公式时,往往要确定的函数和待定参数之间不具有线性形式的关系.这样问题就变得有些复杂.然而,常常可以通过变量替换使其线性化.最小二乘法原理是用来求解线性方程组的,非线性方程经线性化后方可应用该原理.通常在测量中遇到的问题不一定都是线性问题,必须先把非线性问题线性化,然后求解.例如:(i)有时,我们希望用如下类型的函数:qspt(6)去近似一个由一组观测数据(列表)所描绘的函数,其中p和q是待定的两个参数.显然s已非p和q的线性函数.怎样线性化呢?为此,我们在(6)式两端取对数,得到InsInpqInt记01,,,,InsyInpaaqxInt则(6)式变成01yaax.这是一个一次多项式,它的系数0a和1a可以用最小二乘法求得.(ii)我们经常希望用函数CtSAe(7)去近似一个以给定的列表函数,其中A、C是待定的参数.这时,我们可以(7)的两端取对数:InSInACt6记011,,,InSyInAaCaxt,则(1.7)式变成01yaax这样仍可用最小二乘法定出01,aa(从而也就定出了A,C),得到近似函数CtSAe.下面列出几种常用的线性处理方法,利用最小二乘法的原理对直线型、抛物线型和指数曲线型的方程的参数估计方法,介绍如下:(1)直线型直线方程的一般形式为YabX令22()()YCabXC为最小值,分别为a和b求偏导数,并令导数等于0,得到联立方程组。解方程组,即可得到参数的计算公式。22()aYbXnXYXYbnXX(2)抛物线型抛物线方程的一般形式为2YabXcX令22()()YCabXC为最小值,分别为a、b、c求偏导数,并令导数等于0,得到联立方程组解方程组,即可得到参数的计算公式。22232234000YnabXcXYXaXbXcXYXaXbXcX(3)指数曲线型指数曲线的一般形式为XYab7取对数,将指数曲线转化成对数直线形式lglglgYaXb用最小二乘法估计参数a,b,可有如下方程组2lglglg(lg)lglgYnabXXYaXbX解此方程组,可得参数的对数值,查其反对数,即可得参数值。3.最小二乘法原理的应用3.1最小二乘法原理在线性回归中应用例1.已知2009年3月到2010年4月居民收入与物价信心的满意指数如下图,求出当期物价满意指数x与时间t的曲线拟合。T123456X29.5028.2025.9021.7021.9013.80解:t=[123456];x=[29.5028.2025.9021.7021.9013.80];plot(t,x,'o');11.522.533.544.555.56121416182022242628308polyfit(t,x,1)ans=-2.902933.6600则所得到的近似方程为y=-2.9029+33.6600x.3.2最小二乘法原理在非线性回归中的应用例2设已知函数f(x)的表列值为X0.20.50.70.851Y1.2211.6492.0142.3402.718试按最小二乘法构造f(x)的二次近似多项式.解:下面用Matlab程序来求参数01,aa和2a.程序如下:x=[0.20.50.70.851];y=[1.2211.6492.0142.3402.718];plot(x,y,'o');90.20.30.40.50.60.70.80.911.21.41.61.822.22.42.62.8polyfit(x,y,2)ans=0.92480.75531.0346即所求0a=0.9248,1a=0.7553,2a=1.0346.所求的近似多项式为2()0.92480.75531.0346fxxx.例3、在某冶炼过程中,根据统计数据的含碳量与时间关系,试求含碳量y与时间t的拟合曲线。t0510152025303540455055y01.272.162.863.443.874.154.374.514.584.024.64解:实验程序如下:t=[0510152025303540455055];10y=[01.272.162.863.443.874.154.374.514.584.024.64];plot(t,y,'o');010203040506000.511.522.533.544.55p=polyfit(t,y,2)p=-0.00240.20370.2305综上,y与t的拟合曲线是y=-0.0024+0.2037t+0.0.23052t。例2设已知如下一组实验数据:t=2.22.73.54.1S=65605350试求一个CtSAe型的函数去近似它.11解:计算以紧凑的形式表示如下:0xxInt2xyInsxy10.34240.11721.81290.620710.43140.18611.77820.767110.54410.29601.72430.938210.61280.37551.69901.041141.93070.97487.01443.36710S1S2S0u1u由此得方程组010141.93077.0144,1.93070.97483.3671.aaaa解之得011.963,91.9,0.434aInppqa从而0.43491.9St。4.小结应用最小二乘法的几个问题:最小二乘法虽然在数据处理方面具有显著的效果,但如果使用不当会导致很大的误差,甚至错误的结果。因此,在应用时必须注意以下几个问题:(1)慎重选择拟合关系式。在实际问题中,适当选择拟合关系式是一项十分谨慎的工作,它将直接影响计算的工作量和结论。(2)自变量的选择。在实际工作中,对一组实验
本文标题:最小二乘法及其应用
链接地址:https://www.777doc.com/doc-6072641 .html