您好,欢迎访问三七文档
当前位置:首页 > 商业/管理/HR > 质量控制/管理 > 对体育科研中多元回归方程病态设计阵的分析及其LS估计的改进
1对体育科研中多元回归方程病态设计阵的分析及其LS估计的改进彭大松(安徽师范大学体育学院芜湖241000)摘要:本文针对多元回归方程设计阵病态情况下LS估计失去优良性进行分析,讨论了体育科研中多元回归方程设计阵呈病态的原因及其识别方法。并从直观上分析了该种数据导致LS估计不理想的原因。从两个角度提出了有偏估计的办法对LS进行改进。关键词:体育科研多元回归设计阵病态有偏估计OntheAnalysisofAbnormalcasesinMultipliedRegressionEstimationinResearchofsportsSciencePengDasong(CollegeofPhysicalEducation,AnhuiNormalUniversity,Wuhu,214000)Abstract:WiththeanalysisofthelossofexcellenceinLSestimationinabnormalcasesinmultipliedregressionequtionprogrammingmatrix,thispaperdiscussesthecausesfortheabnormalityinsportsresearchandthemeanstodistinguishit,withwhichtheauthordirectlyperceivesthecausesforthelossofexcellenceinLSestimation,andoffersthemeansofbiasedestimationasasolutiontotheimprovementofLSestimation.Keywords:PEresearch,Multipliedregressionequation,Programmingmatrix,Abnormality,Biasedestimation1前言在多元回归分析中,设计阵[5]X病态被表述为X´X中至少有一个特征根非常小即接近于0(又称多元共线性)[1][3]。在体育领域里设计阵病态是一种常见的现象。对这种数据若不加考虑的任用LS方法对回归系数进行估计,会导致严重的后果,常见的是系数估计不稳定,误差过大,甚至出现与实际上相反的符号,此时的LS方法已失去其优良性。本文拟对体育领域中设计阵呈病态进行分析,从直观上说明其破坏LS估计优良性的原因,讨论了体育科研中识别病态数据的方法,并从应用的角度介绍了两种常用的对LS估计不佳的改进办法。2最小二乘估计(LS估计)考虑线性模型[1]:exxxypp22110…………………………(1)当取得样本观测值后,回归系数β的最小二乘估计为:ˆ=xyxx1)(…………………………(2)其中,)ˆ,ˆ,ˆ(ˆ21p,x是)1(pn矩阵,),(21nyyyy,n是样本含量。将x,y标准化后,得到标准回归方程是:pp2211x~~x~~x~~y~++……………………………(3)经标准化后x`x变成了相关阵。若x是正常的那么LS估计将是优良的。3设计阵病态时对LS估计的影响在实际应用中,当出现设计阵病态(又称多元共线性),最小二乘估计不再具有优良的性质[1][3]。甚至让分析者得出错误的结论。常见的后果有以下几个方面:对系数的估计误差过大,系数估计不稳定,增减样本时系数改变特别大,甚至出现与实际相违背系数符号。理论上设计阵X呈病态时则|x´x|≈0。为了从直观上说明LS估计不理想,以及为后面的有偏估计的提出提供理论基础而引进一个评价系数估计优劣的一个标准----均方误差[2]。3.1估计值的均方误差MSE(~)3.1.1均方误差的定义:若~为参数的估计值则MSE~=E(||~-||2)称之为估计值的均方误差。(数理统计上符号||a||表示向量α的长度[3])23.1.2MSE~的分解MSE~=E(||~-||2)是估计值与参数真值偏离大小的一个度量。具体地,对于一个好的估计,MSE~不应该过大。为了更清楚的说明问题,我们对MSE~进一步分解:MSE~=E[(~-)´(~-)]=E[(~-E~)+(E~-)]´[(E~-)+(E~-)]=tr[cov(~)]+||E~-||2……………………………………(4)若记´为(~1,~2,…~p)那么(4)式的第一项又可以写成pii1)~var(度量的是~i各分量估计值的方差。同样(4)式第二项可以写成piiiE12)~(度量的是估计值~I各分量的偏差。理论上这两项均应达到较小才可以被认为是一个好的估计[3]。3.2最小二乘估计的均方误差MSE(ˆ)在对MSE~分解的基础上,来讨论一下最小二乘估计的均方误差MSE(ˆ)。回归方程同(1)式标准化形式同(3)式,当y~N(xβ,σ2/n)有MSE(ˆ)=E||ˆ-β||2在统计理论上已经证明了E||ˆ-β||2=σtr(x´x)-1D||ˆ-β||2=2σ2tr(x´x)-2,其理论依据参见[3]。若x´x的特征根分别是λ1λ2…λp由线性代数知识得到:1)(xx和2)(xx的特征根分别是:21ii因而有:E(||ˆ-β||2)=σ2p1i1i………………(5)D(||ˆ-β||2)=2σ4pii12………………(6)(5)式度量了系数估计的误差,(6)式度量了ˆ的稳定情况(或说是度量了ˆ的波动情况)若设计阵正常LS估计无疑是合适的。但要上X呈病态即x´x有接近于0的特征根,直观上(5),(6)两式特别大。说明此时LS估计的均方误差过大且系数不稳定,从而LS估计失去了优良性。4.体育科研中设计阵病态的成因与识别方法4.1成因分析导致多元回归方程系数设计阵病态的因素很多,这里仅就体育领域中常见设计阵病态成因进行,有以下几个原因:4.1.1由于数据收集的局限性同其他学科的研究相比,体育科学研究存在着自身的复杂性和独特性。因此,数据收集往往受到各种客观条件的限制。如比赛时动作的不可重复性。用统计的语言来表达就是:所收集的P个指标(变量)x1x2….xp近似的落在低于P维的Rn平面内[3]。原则上可以通过收集更多的数据来打破病态数据的共线性。但是数据的收集客观上存在很多困难。即便收集更多数据时可行的,但可能会因此带来的新问题如高杠杆点,高影响点等,同样会给分析者造成麻烦。4.1.2回归方程自变量之间客观上存在着一定程度的线性相关性体育科学研究与其他学科相比,存在着自身的复杂性与独特性。体育动作的完成以及在运动过程中各种生理生化反应都是以复杂联系的人体为载体。人体是个复杂的系统。对这个复杂的系统研究的还欠完善,这就给选取指标带来困难,如对所要选取的指标间的相关性还不是十分清楚等4.1.3伪变量个数过多体育科研中有许多问题的研究涉及到对定性变量进行定量分析,若以若干定性指标建立回归方程,通常的做法是借助于“01”变量(又称伪变量).若伪变量选择过多也会造成设计阵完全共线性.通常伪变量的个数应是自变量个数减去1。4.1.4体育工作者理论基础不扎实由于分析者理论知识水平限制而把事实上存在相关性的一个或几个变量引入回归方程,造成设计阵呈现病态.或者是分析者粗心而疏于考虑所选指标间的相关性,同样也会造成严重的后果。3另外,由于计算机科学的高速发展,许多体育工作者过分的依赖计算机,特别是处理多变量大型回归问题时根本就不从专业知识的角度来考虑而一味地将自己主观上所选地变量统统输入计算机。这样做可能就会将客观上存在共线性的变量选入回归方程从而造成设计阵病态。4.2设计阵病态的识别方法设计阵病态的识别方法有很多,这里从应用的角度出发介绍几种常用的识别方法。4.2.1相关系数识别法具体做法是凭专业知识,通过分析指标间的相关性来识别.若指标间相关系数达到0.75通常认为是高度相关[3]从而造成设计阵病态。但有一点需要注意,就是相关性识别法只能识别两两指标间的关系,而对于多指标间的共线性关系将无法识别。4.2.2F检验与t检验相矛盾识别法对回归方程进行检验,若F检验发现所选入的变量均与因变量关系显著。但对单个变量进行t检验发现几个或全部变量都不显著。这样F检验t检验相矛盾是多元共线性的一个好的标志[4]。由此可以判断设计阵呈病态。4.2.3特征根识别法(又称主成分识别法)对(3)式(相关阵)进行谱分解,得到特征根分别为λ1,λ2,…,λp。若其中的一个或几个接近于0表明原自变量间存在着共线性[1]从而造成设计阵病态。5.LS估计的改进方法从上面的分析知道设计阵病态,LS估计的效果不好,反映在均方误差上即MSE(ˆ)特别大。其原因是xx中存在接近于0的特征根。对此,LS改进的直观想法就是对xx进行适当的变换打破其共线性,使特征根接近于0的程度得到改善。下面就从减少均方误差的角度引入岭估计,从消除自变量间的多元共线性角度引入主成分有偏估计对设计阵病态下LS估计进行改进。5.1岭估计5.1.1岭估计的直观思想由(3)式得ˆ估计为ˆ=(yxxx~~)~~1,我们设想在xx~~的主对角元上都添加一个很小的正数k通常(0﹤k﹤1)。使x´x中接近于0的特征根得到改善。从而使系数的估计均方误差较小且稳定。依照岭估计的思想其β的估计表达式是:ˆ(k)=(x~x~+kIp)-1y~x~。为了更清楚的看清其结构,我们对该式展开得:yyykkkkkkppppppp211212222111211321)(~)(~)(~-+ + 统计理论上已证明了k>0时总能找到合适得k使得MSE(ˆk)达到最小并且有MSE(ˆk)<MSEˆ成立[6]。5.1.2岭参数K值的选择岭估计中引入了一个小的正数k称为岭参数。其值的确定要依靠样本数据而定,所以比较难以确定,下面介绍一种常见的确定岭参数的方法即岭迹法[4]。所谓岭迹法就是以不同的k(0﹤k﹤1)值为横坐标以ˆi(k)为纵坐标所描绘出的轨迹称为岭迹。那么什么时候的k值才是最佳的呢?文献指出当所描绘的岭迹均处于稳定状态,且没有不合理的符号和残差平方和上升不太大。此时的k值即为所选。由于岭迹的计算比较麻烦为了避免必较复杂的逆的计算下面给出一个较为方便的岭迹计算式:ˆ(k)=(x~x~+kIp)-1y~x~=yxkiipii)1(1……………(8)其中λi,i是x,x特征根和特征根所对应的特征向量。5.1.3.实例分析例1因变量y与自变量x1,x2,x3原始数据见表-1和表-24表-1观测号x1x2x3y1149.34.2108.115.92161.24.1114.816.43171.53.1123.219.04175.53.1126.919.15180.81.1132.18.886190.72.2137.720.47202.12.1146.022.78212.45.6154.126.59226.15.0162.328.110231.95.1164.327.611239.00.7167.626.3表2系数项相关系数系数估计标准系数估计X1X2X3yX110.0260.9970.965-0.051-0.3394X210.0360.2510.5870.2130X310.9720.2871.3028y-10.130分析:依原始数据有x~x~=1036.0997.0036.01026.0997.0026.01……………………………….(9)其三个特征根为λ1=1.999λ2=0.998λ3=0.003从(9)式(相关阵)知]x1与x3相关系数高达0.997即存在着高度相关。另外,从特征根λ3=0.003几乎接近于零。这些迹象均表明设计阵病态,故可以用岭估计
本文标题:对体育科研中多元回归方程病态设计阵的分析及其LS估计的改进
链接地址:https://www.777doc.com/doc-2535710 .html