您好,欢迎访问三七文档
冗余分析方差:单个随机变量的方查协方差:协方差阵:是m阶方阵,反映场上所有格点各种可能组合之间的相关,即场的相关结构。迹:方阵主对角线元素之和称之为矩阵的迹,用tr表示。场的总方差的估计:协方差矩阵主对角线元素是各格点上变量的方差,其主对角线元素之和是场的方差。1.冗余分析的简要介绍2.冗余分析的预备知识3.冗余分析的原理主要内容主成分分析是对多维随机变量(或者称随机向量或随机场)做线性组合构成低维新变量,要求新变量维数尽可能低,反映原变量的方差尽可能多。典型相关分析是对两个多维随机变量分别做线性组合构成低维的新变量,要求成对的新变量序列间的相关系数达到最大,次大……这些统计方法都有通过线性组合构成新变量,关键都是寻找满足某种要求的线性组合系数。1.冗余分析的简要介绍冗余分析:有两个多维随机变量,一个是预报对象,另一个为预报因子,通过回归方程建立关系,把预报因子场做线性组合构成新变量,并且这个新变量比原变量维数低,第一个新变量再回归中对预报对象场的方差贡献最大,第二,三……个新变量的方差贡献依次达到次大,第三大…….。与此同时,预报对象场也要找出线性组合新变量,它是能够最优地被预报出来的部分。回归分析是气候预测中应用最为广泛的统计方法。它是处理随机变量之间相关关系的一种有效手段。通过对大量历史观测数据的分析、计算、建立一个变量(因变量)与若干个变量(自变量)间的多元线性回归方程。经过显著性检验,若回归效果显著,则可将所建立的回归方程用于观测。在气候预测中应用回归分析的目的是建立方程。在建立预测方程过程中的一个重要问题是,如何从众多备选自变量中进行筛选,建立最优回归方程。所谓“最优”回归方程有两层含义:一是预报准确。希望在最终预测方程中包含尽可能多的自变量,尤其不能遗漏对因变量有显著作用的自变量。回归方程中包含的自变量越多,回归平方和就越大,剩余平方和就越小,剩余方差一般就小。二是为了应用方便,又希望预测方程中含尽量少的变量。因此,最优回归方程应包含对因变量有显著作用的自变量,而不包含不显著的变量。一、多元回归:是对某一预报量Y,研究多个因子与它的定量统计关系。二、多元回归模型Ⅰ、单个预报场变量yi设定:X为预报因子,是mx维随机向量场Y是预报对象,是my维随机向量场且X,Y的数学期望均为零向量。2.预备知识----回顾:多元回归单个随机变量是随机向量Y的一个分量,其回归模型为(4.1.1)记(4.1.2)其中,,…,是回归系数,是一个行向量,则(4.1.3)其中X是列向量在多元回归原理中,为了使回归方程表示出的的方差达最大,也是使误差的方差达最小,回归系数满足正规方程组或者表示为(4.1.5)解得(4.1.6)其中是对称矩阵,也是对称矩阵,转置后不变。的方差是D()=。回归模型的误差方差是D()==E()。回归方程表示出的的方差是D()-D(),记为。注意,(4.1.3)式中的是一行一列矩阵,是一个数量,所以还可以用,得=−𝐑𝐣XX𝐑𝐣𝐓+𝟐Xyj𝐑𝐣𝐓Xyj=−jXy−𝟏-1XXXX𝐑𝐣𝐓+𝟐Xyj𝐑𝐣𝐓=−Xyj𝐑𝐣𝐓+𝟐Xyj𝐑𝐣𝐓=Xyj𝐑𝐣𝐓=𝐂𝐨𝐯𝐲𝐣,𝐱𝟏,𝐂𝐨𝐯𝐲𝐣,𝐱𝟐,…,𝐂𝐨𝐯𝐲𝐣,𝐱𝐦𝐫𝐣𝐢𝐫𝐣𝟐⋮𝐫𝐣𝐦𝐱=𝐂𝐨𝐯(𝐲𝐣,𝐱𝐣)𝐦𝐱𝐢=𝟏𝐫𝐣𝐢其中XX=𝐄𝐗𝐗𝐓是𝐗的协方差矩阵,Xyj=𝐄𝐲𝐣𝐗𝐓是𝐲𝐣与X的协方差行向量。注意在本科统计教材中,多元回归方程的回归平方和的计算公式就是(4.1.7)式,仅仅字符不同,常写为𝐮=𝐛𝐢𝐦𝐢=𝟏𝐬𝐢𝐲,其中𝐛𝐢是回归系数,𝐬𝐢𝐲是y与因子𝐱𝐢间的协方差。Ⅱ、多维回归场变量的预报模型上述是对的一个分量而言,现在要表示出对它的所有分量的回归,与上述得到的结论进行类比:把预报对象、回归系数、误差均表示为列向量:如:得:Y12...ymyyYy12...ymRRRR12...ymYRX1(11)(12)(1)2(21)(22)(2)-1XX(1)(2)()-1XX,,...,,,...,............,,...,xxyyyyxmmmmmmmYXRCovyxCovyxCovyxRCovyxCovyxCovyxRRCovyxCovyxCovyx为了对公式进行进一步的简化,引入:可以得到以为因子的回归表示出的的方差等于的总方差减去总的误差方差:因为所以有:其中表示出的是的方差,与的总方差的比值反映回归的效果好坏,冗余指数就是依据这个比值定义的。1()(,)yjYYjmVarYDytrtrCovYYXYYˆˆˆ-1XXˆˆ(,)(,)[2][]YYYYYXXYutrCovYYtrCovYYYYtrtr-1XXYXR()111(),yyxjijijXYjijmmmutrRrCovyxujujyuY1.冗余指数3.冗余分析Y的总方差是矩阵主对角线元素之和,即Y的各分量方差之和Y的总方差=(4.2.5)记Y被回归表示出的部分为(4.2.6)总的剩余部分的方差为(4.2.7)定义回归方程表示出的Y方差于Y的总方差之比为冗余指数(RedundancyIndex,简写RI),公式表示为(4.2.8)COV(Y,Y)-Cov(𝐘−𝐘,𝐘−𝐘)=𝐘𝐘−(𝐘𝐘+𝐘𝐘−𝟐𝐘𝐘)=-𝐘𝐘+𝟐𝐘𝐘=-E(𝐘𝐘𝐓)+2E(𝐘𝐘𝐓)=-R𝐑𝐓𝐐𝐗,𝐐𝐗+𝟐𝐑𝐓𝐘,𝐐𝐗=-(𝐐𝐗,𝐐𝐗)−𝟏𝐘,𝐐𝐗𝐑𝐓𝐐𝐗,𝐐𝐗+𝟐𝐑𝐓𝐘,𝐐𝐗=𝐑𝐓𝐘,𝐐𝐗=𝐐𝐤𝐘𝐗(𝐐𝐗,𝐐𝐗)−𝟏𝐓𝐘,𝐐𝐗YXXYTkXXkTkkQQQQ1YYYXXYTkXXkTkkTktrQQQQtrXQYR12:(4.2.9)2.冗余指数对线性变换的不变性冗余指数有一些有意义的性质,其中之一是对Y的正交变换的不变性:如果A是一个正交矩阵,则另一方面,如果矩阵有列,即k=,是,是方的(×阶)非奇异矩阵,用变换指定的变量X,那么,对亢余指数也没有影响(上述推导都与k无关,只要k小于等于m)。在这种情况下,()-1存在,利用(4.2.10)式====R2(Y:X)是直接使用X的所有分量的因子的回归方程的冗余指数,在4.1中已导出他的总回归方差等于tr()(见(4.1.17a)式)。(4.2.12)式说明,随机向量X所在的坐标系是不重要的,只要他描述同一个线性空间。这是一个有意义的性质,因为包含在X中的有关Y的信息不应取决于X的表示的特殊性,例如,X的分量的单位,或X的分量的序号等。然而,如果用表示的线性变换把维的变量X映射成k维变量=X,该新变量包含的有关Y的信息较少,所以只要,,,的“列空间”是逐个套入的,且可逆,就得到(Y:)(Y:)(Y:)=(Y:X)如果对所有的k,是在上加上一列构成的,则不等式(4.2.13)反应出有k个因子情况下对Y的回归与相同的k个因子再加上一个共k+1个因子情况下对Y的回归冗余指数之间的关系。由(4.2.13)式可见,在原有的因子基础上再增加因子,冗余指数是递增的。注意,多元回归中关于方差贡献的概念也给出这个关系,单因子方差贡献总大于等于零,因子在原有基础上增加时,方差的回归平方和总是增加的。对于给定的变化,再考虑矩阵的列支撑起的子空间,这就是,对于任一个K×K阶矩阵L,可得到因此,对于两个变量X和Y,冗余指数取决于X变量投影到子空间以及量度Y的方式。因为不依赖于X和的特定坐标,可以假定所选取的的不同列与X的变换相互正交。Cov(XXqqTjTl,)=E(qXXqjTTl)=qTl∑XXqj=0当l≠j(4.2.15)则):(2XYQRTk=kjTjXYqR12):((4.2.16)qqjl,是Qk的第l,j列。注意,如果Qk的列向量是X的EOF,则(4.2.15)式成立。(4.2.16)式可以看做(4.2.13)式的特殊形式。3.冗余分析冗余分析的理论基础是,存在一个非奇异的变换),...,,(21bbbmBx使得冗余指数(也就是XBTk对Y的回归所揭示的Y的方差与Y的总方差之比)对任意k=1,2,…,min(mmyx,)达最大。bbbmx,...,,21是B矩阵的列向量,是mx维的。Bk矩阵包含B的前k列。因此,冗余分析是确定一个k维子空间,使得能最有效地对Y回归。因此选取这个子空间的坐标不受约束,我们可以选取满足(4.2.15)式的k个正交型为线性基,使得冗余指数能够被表示成(4.2.16)式的形式。这两个公式含义是,如果B的列向量满足(4.2.15)式,则列向量是X的EOF型,是相互正交的,新变量XBTk是k维的,它的k个分量相互正交,例如第j与第j'个分量间的协方差为E(bXXbjTTj')=bTj∑XXbj'=0(因bj和bj'满足(4.2.15)式),在多元回归原理中已知,当回归方程中的因子相互正交时,多元回归方程的回归平方和等于各因子一元回归的回归平方和之和,根据冗余指数的定义(4.2.8)式,得到在这种情况下,k个新变量回归方程的R2等于个新变量单因子回归方程的R2之和,即(4.2.16)式。):(2XYQRTk=kjTjXYqR12):(接下来要识别出第二套空间型,它表示X对Y的回归所解释是Y的方差的正交划分,更准确地说,回归把由向量表示的子空间映射到由A矩阵的前k列支撑的空间。4.冗余分析变换冗余分析变换的原理是,对任意my维随机向量Y和mx维随机向量X,存在一个正交变换A和非奇异变换B,使得Cov(XXBBTT,)=BT∑XXB=I(4.2.17)Cov(XYBATT,)=AT∑YXB=C(4.2.18)Cov表示协方差矩阵,其中D是my×mx阶矩阵,其元素dij=0,当l≠j,对角元素dij=j,对于j≤min(mx,my),因为mx与my不一定相等,所以D不一定是对角方阵。这个原理的证明可分两步。首先对矩阵A和B导出两个特征方程,以及两个矩阵之间的一个线性联系作为必要条件,然后证明这两个特征方程的解满足(4.2.17)式和(4.2.18)式。特征值问题(4.2.23)式可改写为(4.2.30)与有相同的特征值,如果c是的特征向量,对应的特征值为λ,则(4.2.31)是的特征向量,对应的特征值也是λ。尚待证明的是,这些向量满足(4.2.18)式。设与有r个非零特征值和对应的特征向量,对所有序号j和i≤r,有(4.2.32)当i>j(4.2.33)这是因为是零向量,这可用反证法证明,假定不是零向量,则,这意味着不等于零向量,这与对应于的零特征值相矛盾,所以当i>r,是零向量。所以A和B矩阵满足(4.2.18)式。上式的证明说明分别由aj和bj组成的矩阵A和B是满足定理要求的唯一矩阵。然后使用bj和aj的关系计算bjbj=(4.2.34)根据上面的分析,得到下面的定理:当选取Qk=Bk时,对所有的k≤mx,冗余指数R2(Y:QKX)到达最大,其中Bk是mxk阶矩阵,它由满足(4.2.25)式的与k个最大特征值对应的特征向量组成。因此,在所有可能的单个空间型q中,对应矩阵𝐗𝐘−𝟏𝐗𝐗𝐘𝐗的最大特征值的特征向量1b在线性意义上提供最多的有关Y方差的信息,即对于任意维xm向量q,有221(:)(:b)TTRYqXRYX(4.2.35)况且,由(4.2.17)式和(4.2.16)式,冗余指数可写为特别简单的形式
本文标题:冗余分析
链接地址:https://www.777doc.com/doc-6708072 .html