您好,欢迎访问三七文档
当前位置:首页 > 行业资料 > 冶金工业 > 2019第十章典型相关分析.ppt
第十章典型相关分析§10.1引言§10.2总体典型相关§10.3样本典型相关§10.4典型相关系数的显著性检验§10.1引言典型相关分析(canonicalcorrelationanalysis)是研究两组变量之间相关关系的一种统计分析方法,它能够有效地揭示两组变量之间的相互线性依赖关系。典型相关分析是由霍特林(Hotelling,1935,1936)首先提出的。§10.2总体典型相关一、典型相关的定义及导出二、典型相关变量的性质三、从相关矩阵出发计算典型相关一、典型相关的定义及导出设x=(x1,x2,⋯,xp)′和y=(y1,y2,⋯,yq)′是两组随机变量,且V(x)=Σ11(0),V(y)=Σ22(0),Cov(x,y)=Σ12,即有其中Σ21=Σ12′。我们研究u=a′x与v=b′y之间的相关关系,其中a=(a1,a2,⋯,ap)′,b=(b1,b2,⋯,bq)′现来计算一下u与v的相关系数。Cov(u,v)=Cov(a′x,b′y)=a′Cov(x,y)b=a′Σ12bV(u)=V(a′x)=a′V(x)a=a′Σ11aV(v)=V(b′y)=b′V(y)b=b′Σ22b11122122VΣΣxΣΣy所以,u与v的相关系数由于对任意非零常数k1和k2,有ρ(k1u,k2v)=ρ(u,v)因此,为避免不必要的结果重复,我们常常限定u与v均为标准化的变量,即附加约束条件V(u)=1,V(v)=1即a′Σ11a=1,b′Σ22b=1在此约束条件下,求a∈Rp和b∈Rq,使得ρ(u,v)=a′Σ12b达到最大。121122,uvaΣbaΣabΣb容易证明,有着相同的非零特征值,且皆为正,其个数为m=rank(Σ12)。将这些正特征值分别记为。设a1,a2,⋯,am为的相应于的特征向量,且满足标准化条件ai′Σ11ai=1,i=1,2,⋯,m令,则有从而b1,b2,⋯,bm为的相应于的特征向量,并且满足11111112222122211112ΣΣΣΣΣΣΣΣ和222120m1111122221ΣΣΣΣ22212,,,m122211iiibΣΣa1111122211112222111122221122222111iiiiiiiiΣΣΣΣbΣΣΣΣΣΣaΣΣab1122211112ΣΣΣΣ222120m可以证明,当取a=a1,b=b1时,ρ(u,v)=a′Σ12b达到最大值ρ1(显然ρ1≤1)。我们称u1=a1′x,v1=b1′y为第一对典型相关变量,称ρ1为第一个典型相关系数第一对典型相关变量u1,v1提取了原始变量x与y之间相关的主要部分,如果这一部分还显得不够,可以在剩余相关中再求出第二对典型相关变量u2=a′x,v2=b′y,也就是a,b应满足标准化条件且应使得第二对典型相关变量不包括第一对典型相关112212222222212111111122221221121111,1,2,,iiiiiiiiiiiiimbΣbaΣΣΣΣΣaaΣΣΣΣΣaaΣa变量所含的信息,即ρ(u2,u1)=ρ(a′x,a1′x)=Cov(a′x,a1′x)=a′Σ11a1=0ρ(v2,v1)=ρ(b′y,b1′y)=Cov(b′y,b1′y)=b′Σ22b1=0在这些约束条件下使得ρ(u2,v2)=ρ(a′x,b′y)=a′Σ12b达到最大。一般地,第i(1i≤m)对典型相关变量ui=a′x,vi=b′y是指,找出a∈Rp,b∈Rq,在约束条件a′Σ11a=1,b′Σ22b=1a′Σ11ak=0,b′Σ22bk=0,k=1,2,⋯,i−1下,使得ρ(ui,vi)=ρ(a′x,b′y)=a′Σ12b达到最大。当取a=ai,b=bi时,ρ(ui,vi)达到最大值ρi,称它为第i个典型相关系数,称ai,bi为第i对典型系数。二、典型相关变量的性质1.同一组的典型变量互不相关2.不同组的典型变量之间的相关性3.原始变量与典型变量之间的相关系数4.简单相关、复相关和典型相关之间的关系1.同一组的典型变量互不相关设x,y的第i对典型变量为ui=ai′x,vi=bi′y,i=1,2,⋯,m则有V(ui)=ai′Σ11ai=1,V(vi)=bi′Σ22bi=1,i=1,2,⋯,mρ(ui,uj)=Cov(ui,uj)=ai′Σ11aj=0,1≤i≠j≤mρ(vi,vj)=Cov(vi,vj)=bi′Σ22bj=0,1≤i≠j≤m2.不同组的典型变量之间的相关性ρ(ui,vi)=ρi,i=1,2,⋯,m记u=(u1,u2,⋯,um)′,v=(v1,v2,⋯,vm)′,则上述两个性质可用矩阵表示为V(u)=Im,V(v)=Im,Cov(u,v)=Λ或其中Λ=diag(ρ1,ρ2,⋯,ρm)。1122111222,Cov,Cov,Cov,01ijijijijijjijuvuvijmaxbyaxybαΣΣΣβαα,mmVIΛuΛIv3.原始变量与典型变量之间的相关系数记A=(a1,a2,⋯,am)=(aij)p×mB=(b1,b2,⋯,bm)=(bij)q×m1111,11,1,1,11121,11,1,11,2122,1,,1,pppqpppppppqpppppppqpqpqppqppqpqΣΣΣΣΣ则Cov(x,u)=Cov(x,A′x)=Σ11ACov(x,v)=Cov(x,B′y)=Σ12BCov(y,u)=Cov(y,A′x)=Σ21ACov(y,v)=Cov(y,B′y)=Σ22B上述四个等式也可表达为1111,1,,1Cov,,,Cov,,,jpijiipikkjkpjjqijipipqipkkjkqjaxuaabxvbbi=1,2,⋯,q,j=1,2,⋯,m所以1,1,,11,1,,1Cov,,,Cov,,,jpijpipippikkjkpjjqijpippipqpipkkjkqjayuaabyvbb,11,,,,11,,,,,,1,2,,1,2,,pqijikkjiiijipkkjiikkpqijpikkjpipiijpipkkjpipikkxuaxvbyuayvbipjm,4.简单相关、复相关和典型相关之间的关系当p=q=1时,x与y之间的(惟一)典型相关就是它们之间的简单相关;当p=1或q=1时,x与y之间的(惟一)典型相关就是它们之间的复相关。可见,复相关是典型相关的一个特例,而简单相关是复相关的一个特例。第一个典型相关系数至少同x(或y)的任一分量与y(或x)的复相关系数一样大,即使所有这些复相关系数都较小,第一个典型相关系数仍可能很大;同样,从复相关的定义也可以看出,当p=1(或q=1)时,x(或y)与y(或x)之间的复相关系数也不会小于x(或y)与y(或x)的任一分量之间的相关系数,即使所有这些相关系数都较小,复相关系数仍可能很大。三、从相关矩阵出发计算典型相关有时,x和y的各分量的单位不全相同,我们希望在对各分量作标准化变换之后再作典型相关分析。记μ1=E(x),μ2=E(y),,,为的相关矩阵。对x和y的各分量作标准化变换,即令现在来求x*和y*的典型相关变量,i=1,2,⋯,m。111diag,,ppD21,1,diag,,pppqpqD11122122RRRRRxy*1*11122xDxμyDyμ,于是因为所以*111111111111*111122222222**111112112212**111121221121Cov,Cov,Cov,Cov,VVVVyxxDxDDΣDRyDyDDΣDRxyDxyDDΣDRDyxDDΣDR1111111111111112222111111122222222111111111222211RRRRDΣDDΣDDΣDDΣDDΣΣΣΣD112111222211112111122221111iiiiiiΣΣΣΣaaDΣΣΣΣDDaDa式中,有。同理式中,有。由此可见,为x*和y*的第i对典型系数,其第i个典型相关系数仍为ρi,在标准化变换下具有不变性,这一点与主成分分析有所不同。x*和y*的第i对典型变量具有零均值,且与x和y的第i对典型变量ui=ai′x,vi=bi′y只相差一个常数。例10.2.1设x,y有如下相关矩阵:这里|α|<1,|γ|<1,可以保证存在。11*2*11122221iiiRRRRaa*1iiaDa**111111111iiiiiiaRaaDRDaaΣa11*2*22211112iiiRRRRbb*2iibDb**222222221iiiiiibRbbDRDbbΣb**,iiab******,iiiiuvaxby11221211,11RRR,11111122,RR由于11′有惟一的非零特征值1′1=2,故有惟一非零特征值在约束条件下,相应于特征值的特征向量为。同理,在约束条件下,111112222122222221111111111,111121111RRRR1111111111111111122221RRRR221411211/2*121a1**11111aRa**12211bRb相应于特征值的特征向量为。所以,第一对典型相关变量为其中x*和y*分别是对x和y各分量标准化后的向量。第一个典型相关系数为。由于|α|<1,|γ|<1,故ρ1|β|,表明第一个典型相关系数大于两组原始变量之间的相关系数。1122211112RRRR211/2*121b11/21/2******1121,21axxbyy111/21211§10.3样本典型相关设数据矩阵为则样本协方差矩阵为S可用来作为Σ的估计。当np+q时,可分别作为的估计;它们的非零特征值可用来估计;1111111111pqnnnnpnnqxxyyxxyyxyXYxy11122122SSSSS11111112222122211112SSSSSSSS和11111112222122211112ΣΣΣΣΣΣΣΣ和22212mrrr22212m相应的特征向量作为a1,a2,⋯,am的估计,作为b1,b2,⋯,bm的估计。的正平方根rj称为第j个样本典型相关系数,称为第j对样本典型相关变量,j=1,2,⋯,m。将样本(xi,yi),i=1,2,⋯,n经中心化后代入m对典型变量,即令则称uij为第i个样品xi的第j个样本典型变量得分,称vij为第i个样品yi的第j个样
本文标题:2019第十章典型相关分析.ppt
链接地址:https://www.777doc.com/doc-7202500 .html