您好,欢迎访问三七文档
当前位置:首页 > 商业/管理/HR > 管理学资料 > 回归分析在数模竞赛中的应用-1
1回归分析在数模竞赛中的应用§1回归分析的基本思想在实际问题中,我们会遇到各种变量,在变量与变量之间,往往存在着各种关系。有些变量之间的关系是确定性的函数关系,例如,圆的半径R与圆面积S之间的关系2RS,自由落体落下的时间t与落下的距离h之间的关系221gth,等等。在这些关系中,只要自变量的值确定了,因变量的值也就随之确定了。但是,有些变量之间的关系就不是这样,例如,农作物的施肥量x与农作物的产量y之间的关系,商品的价格x与商品的销售量y之间的关系,家庭的收入x与家庭的支出y之间的关系,父亲的身高x与儿子的身高y之间的关系,等等。在这些关系中,自变量x的值确定了,因变量y的值并不完全随之确定,还是可能有上下起伏的变化。同时,在这些关系中,自变量x与因变量y又不是完全无关的,通过大量的统计数据,可以发现,它们之间确实存在着某种关系。我们把这样的关系,称为统计相关关系。回归分析(RegressionAnalysis),就是研究变量之间的统计相关关系的一种统计方法。它从自变量和因变量的一组观测数据出发,寻找一个函数式,将变量之间的统计相关关系近似地表达出来。这个能够近似表达自变量与因变量之间关系的函数式,称为回归方程或回归函数。§2回归分析问题的一般形式设有m个自变量mxxx,,,21和1个因变量y,它们之间有下列关系:),,,;,,,(2121pmaaaxxxFy,其中,F是函数形式已知的m元函数,paaa,,,21是常数,是函数F中的未知参数,是表示误差的随机变量,一般可认为~),0(2N,0。对mxxx,,,21,y进行n次观测,得到观测值:),,,,(21imiiiyxxx,ni,,2,1。对每一次观测来说,同样有下列关系ipimiiiaaaxxxFy),,,;,,,(2121,其中i是第i次观测时的随机误差,ni,,2,1。回归分析目标是:从观测数据出发,求paaa,,,21的估计paaaˆ,,ˆ,ˆ21,使2得下列平方和Q达到最小:nipmiiiiaaaxxxFyQ122121]),,,;,,,([。由于估计的目标是使一个平方和达到最小,而平方又称为“二乘”,所以,这种估计称为最小二乘估计(LeastSquaresEstimator,简称LSE),求这种估计的方法称为最小二乘法(MethodofLeastSquares)。把paaaˆ,,ˆ,ˆ21代入Q表达式,就得到Q的最小值nipmiiiiaaaxxxFyQ122121min])ˆ,,ˆ,ˆ;,,,([。Q的最小值称为残差平方和,残差平方和越小,说明回归方程表达变量之间统计相关关系的精确程度越高,也就是回归分析的效果越好。在数模竞赛中,经常会遇到可以用回归分析来解决的问题,下面是一些例子。例1(1993年全国数模竞赛A题)非线性交调的频率设计在一个电子通讯系统中,对输入信号强度u和输出信号强度y进行观测,得到下列数据:u0510203040506080y02.256.8020.1535.7056.4075.1087.8598.50已知u与y之间的关系,是一个次数为3次的多项式:332210uuuy,作为非线性交调的频率设计的第一步,需要求出这个关系式。这里,u是自变量,y是因变量,3210,,,是未知参数。问题是要从u和y的观测值数据出发,求出参数3210,,,的估计。显然,这是一个回归分析问题。例2(1993年国际数模竞赛A题)加速餐厅剩菜堆肥的生成一家自助餐厅,每天把顾客吃剩下的食物搅拌成浆状,混入厨房里废弃的碎绿叶菜和少量撕碎的报纸,再加入真菌和细菌,混合物原料在真菌和细菌的消化作用下生成堆肥。下表给出了以磅为单位的混合物原料中各种成分的的数据,以及混合物原料喂入的日期和堆肥生成的日期:食物浆绿叶菜纸片原料喂入日期堆肥生成日期8631090.7.1390.8.1011279090.7.1790.8.137121090.7.2490.8.200382090.7.2790.8.227928090.8.1090.9.12310552090.8.1390.9.1812115090.8.2090.9.2411032090.8.2290.8.228244991.4.3091.6.185760691.5.291.6.207751791.5.791.6.255238691.5.1091.6.28要求确定:混合物原料中各种成分的比例与堆肥生成的速率之间是否有关系?如果有关系,怎样的比例才能使得堆肥生成的速度最快?设321,,xxx分别是食物浆、绿叶菜和纸片在混合物原料中的比例,y是生成堆肥所需要的时间。要尝试给出321,,xxx与y之间的关系式。可以考虑各种不同形式的关系,最简单的,可以认为它们之间有线性关系:3322110xxxy,其中,321,,xxx是自变量,y是因变量,3210,,,是未知参数。问题是要从321,,xxx和y的观测值数据出发,求出参数3210,,,的估计(由于321,,xxx是各种成分在总量中的比例,它们之间有1321xxx的关系,3个自变量实际上不是独立的,为了避免估计结果的不确定,实际上还应该去掉一个自变量)。显然,这也是一个典型的回归分析问题。例3(1996年国际数模竞赛A题)潜水艇的探测海洋中有一个背景噪声场,当附近有潜水艇驶过时,噪声场会发生变化。要求给出一种方法,通过在水下检测点检测到的噪声场的变化情况,探测出附近有无潜水艇,潜水艇的位置、大小、形状、运动速度和运动方向。这个问题有各种各样不同的做法,其中一种做法是:设),,(000zyx是潜水艇中心的坐标,),,(zyxVVV是潜水艇的速度分量。近似认为潜水艇的形状是一个圆柱形的主体,前后两端加上两个半球。设L是潜水艇圆柱形主体的长度,R是圆柱形底面的半径。4在海洋中设置n个检测点。设第i个检测点的坐标位置为),,(iiizyx,在这一点上测到的噪声强度为ip,ni,,2,1。根据水声学原理,可以得到下列形式的关系式:izyxiiiiRLVVVzyxzyxFp),,,,,,,,,,(000,ni,,2,1。其中,ip是因变量的观测值,iiizyx,,是自变量的观测值,000,,zyx,zyxVVV,,,RL,是未知参数,问题是要从自变量和因变量的观测值数据出发,求出参数000,,zyx,zyxVVV,,,RL,的估计。显然,这也是一个回归分析问题。§3线性回归(LinearRegression)一、线性回归问题的一般形式和解法设有m个自变量mxxx,,,21和1个因变量y,它们之间有下列关系:mmxxy110,其中,m,,,10是未知参数,~),0(2N是表示误差的随机变量,0。对mxxx,,,21,y进行n次观测,得到一组观测值:),,,,(21imiiiyxxx,ni,,2,1。即有imimiixxy110,i~),0(2N,ni,,2,1。线性回归的目标是:从自变量和因变量的观测数据出发,求未知参数m,,,10的估计值mˆ,,ˆ,ˆ10,使得平方和nimimiixxyQ12110)]([达到最小。Q是m,,,10的函数,所以,这是一个多元函数求最小值的问题,我们可以通过求偏导数、解下列方程组的方法,来确定Q的最小值点:500010mQQQ从这个方程组中求得的解mˆ,,ˆ,ˆ10,使Q达到最小,是m,,,10的最小二乘估计。(有时,线性回归问题中可能会不出现常数项0,也可以类似地求解。)当自变量个数n比较多时,线性回归的具体计算是很烦琐复杂的,如果靠人工计算,工作量很大。现在计算机已经十分普及,人们已开发了许多现成的计算机程序和软件包,其中包括可以作一元和多元线性回归的软件。我们在解决实际问题时,可以利用这些现成软件,十分方便迅速地完成线性回归的计算。所以,我们这里就不将线性回归的具体计算公式详细写出来了。二、衡量线性回归结果好坏的标准(1)残差平方和(剩余平方和ResidualSumofSquares,简称RSS),残差平方和,也就是Q的最小值,记为eSSnimimiixxyQ12110min)]ˆˆˆ([。eSS越小,说明回归方程表达变量之间统计相关关系的精确程度越高,也就是回归分析的效果越好。但eSS的大小还与样本观测次数n有关。(2)估计的标准差(残差标准差EstimatedStandardDeviation)1ˆmnSSee(如果回归问题中不出现常数项0,则上式中的1mn要改为mn)。eˆ越小,表明eSS越小,回归分析的效果也就越好。eˆ的大小基本上与样本观测次数n无关,但它是一个有量纲的量,与因变量y同一量纲,所以它的数值大小与y的量纲单位大小有关。(3)多重相关系数(复相关系数MultipleCorrelationCoefficient)yyeLSSr1,其中,niiyyyyL12)(,niiyny11。6可以证明,有10r。r越接近1,说明eSS越小,回归分析的效果也就越好。r是一个无量纲的量,它的大小与量纲的单位大小无关。三、线性回归应用的实例前面介绍过的1993年国际数模竞赛A题“加速餐厅剩菜堆肥的生成”就是一个线性回归的例子,下面再看一个例子。例4(1993年全国数模竞赛B题)给足球队排名次已知12支球队在全国甲级联赛中的成绩,要求设计一种依据这些成绩给足球队排名次的方法。这个问题可以有多种不同的做法,回归分析就是其中的一种做法。设12m支球队的实力为m,,,21,这些都是未知的常数。设iy是第i场比赛时,通过比分表现出来的主队与客队两队的实力之差。例如,当两队的比分为2:3时,可以定义23iy或23iy或3323iy或2131lniy,等等。设第1场比赛,是1队对2队,1队为主队,2队为客队;第2场比赛,是3队对4队,3队为主队,4队为客队;第3场比赛,是1队对4队,1队为主队,4队为客队;……。则有1211y,2432y,3413y,……。对每一场比赛,有imimiiixxxy2211,其中,队没有参赛场比赛,第第队作为客队参赛场比赛,第第队作为主队参赛场比赛,第第jijijixji011i~),0(2N是第i场比赛结果的随机误差,ni,,2,1。可以看出,这实际上是一个不出现常数项0的线性回归问题,回归方程为7mmxxxy2211。要求从观测值miiixxx,,,21(+1,-1或0)和iy(比赛结果)出发,求m,,,21(各队实力)的估计值。求出各队实力的估计值,就可以按照实力的大小给各队排名次了。实际计算时,还要考虑到比赛结果只反映各队的实力之差,只知道相对的大小关系,缺少一个绝对的基准,要想求出各队实力的数值,实际上是不可能的。要解决这个问题也很容易,只要事先给定一个球队实力的数值,作为一个基准就可以了。例如,可以令0m,这相当于在回归方程中去掉最后一项,然后作线性回归,就可以求出其他的的估计值。
本文标题:回归分析在数模竞赛中的应用-1
链接地址:https://www.777doc.com/doc-2593320 .html