您好,欢迎访问三七文档
北大数学学院1应用多元统计分析第十章典型相关分析canonicalcorrelationanalysis北大数学学院2第十章典型相关分析目录§10.1总体典型相关§10.2样本典型相关§10.3典型冗余分析北大数学学院3第十章引言什么是典型相关分析相关分析是研究多个变量与多个变量之间的相关关系.如研究两个随机变量之间的相关关系可用简单相关系数表示;研究一个随机变量与多个随机变量之间的相关关系可用全相关系数表示.1936年Hotelling首先将相关分析推广到研究多个随机变量与多个随机变量之间的相关关系,故而产生了典型相关分析,广义相关系数等一些有用的方法.北大数学学院4第十章引言什么是典型相关分析在实际问题中,经常遇到要研究一部分变量和另一部分变量之间的相关关系,例如:在工业中,考察原料的主要质量指标(X1,...,Xp)与产品的主要质量指标(Y1,...,Yq)间的相关性;在经济学中,研究主要肉类的价格与销售量之间的相关性;在地质学中,为研究岩石形成的成因关系,考察岩石的化学成份与其周围围岩化学成份的相关性;在气象学中为分析预报24小时后天气的可靠程度,研究当天和前一天气象因子间的相关关系;北大数学学院5第十章引言什么是典型相关分析在教育学中,研究学生在高考的各科成绩与高二年级各主科成绩间的相关关系;在婚姻的研究中,考察小伙子对追求姑娘的主要指标与姑娘想往的小伙子的主要尺度之间的相关关系;在医学中,研究患某种疾病病人的各种症状程度与用科学方法检查的一些结果之间的相关关系;在体育学中,研究运动员的体力测试指标与运动能力指标之间的相关关系等.北大数学学院6第十章引言什么是典型相关分析一般地,假设有一组变量X1,...,Xp与另一组变量Y1,...,Yq(也可以记为Xp+1,...,Xp+q),我们要研究这两组变量的相关关系,如何给两组变量之间的相关性以数量的描述,这就是本章研究的典型相关分析.当p=q=1时,就是研究两个变量X与Y之间的相关关系.简单相关系数是最常见的度量.其定义为北大数学学院7第十章引言什么是典型相关分析当p≥1,q=1时(或q≥1,p=1)设则称为Y与(X1,…,Xp)的全相关系数.其实Y对X的回归为1(|)()()YYXXXXEYXxx且(,())YxR,并称R为全相关系数.1/21YXXXXYYYR1~(,),0XXXYpYXYYXNYdef=北大数学学院8第十章引言什么是典型相关分析当p,q1时,利用主成分分析的思想,可以把多个变量与多个变量之间的相关化为两个新变量之间的相关.也就是求=(1,…,p)和=(1,…,q),使得新变量:V=1X1+…+pXp=XW=1Y1+…+qYq=Y之间有最大可能的相关,基于这个思想就产生了典型相关分析(Canonicalcorrelatinalanalysis).北大数学学院9第十章§10.1总体典型相关典型相关的定义设X=(X1,...,Xp)及Y=(Y1,...,Yq)为随机向量(不妨设p≤q),记随机向量Z=XYZ的协差阵为其中Σ11是X的协差阵,Σ22是Y的协差阵,Σ12=Σ’21是X,Y的协差阵.22211211北大数学学院10第十章§10.1总体典型相关典型相关的定义我们用X和Y的线性组合V=aX和W=bY之间的相关来研究X和Y之间的相关.我们希望找到a和b,使ρ(V,W)最大.由相关系数的定义:又已知北大数学学院11第十章§10.1总体典型相关典型相关的定义故有对任给常数c1,c2,d1,d2,显然有ρ(c1V+d1,c2W+d2)=ρ(V,W)即使得相关系数最大的V=aX和W=bX并不唯一.故加附加约束条件Var(V)=aΣ11a=1,Var(W)=bΣ22b=1.问题化为在约束条件Var(V)=1,Var(W)=1下,求a和b,使得ρ(V,W)=aΣ12b达最大.北大数学学院12第十章§10.1总体典型相关典型相关的定义定义10.1.1设X=(X1,...,Xp)及Y=(Y1,...,Yq)为随机向量(不妨设p≤q),记随机向量111221221111111111var(')1,var(')111,()0,(Z)0.(,,)'(,,)',',')max','),',',pqXYXZEZDYaaabbbaXbYXYaXbYXY如果存在和使得((则称是的第一对典型相关变量,它们之间的相关系数称为第一个典型相关系数;北大数学学院13第十章§10.1总体典型相关典型相关的定义11(,,)'(,,)',(1)','1(2)var(')1,var(')1;(3)''',',2,,).kkpkkkqkkkkkkkkkaaabbbaXbYkaXbYaXbYaXbYXYkkkp如果存在和使得和前面对典型相关变量都不相关;与的相关系数最大,则称是的第对典型相关变量,它们之间的相关系数称为第个典型相关系数(北大数学学院14第十章§10.1总体典型相关典型相关变量的求法定理10.1.1设X=(X1,...,Xp)及Y=(Y1,...,Yq)为随机向量(不妨设p≤q),记随机向量111221221212111222222121211212112221,()0,(Z)0.,'0(0,1,,);,,,.,(1,2,,).',',pipkkkkkkkkkXZEZDYTpTTiplllalbakpVaXWbYXYk已知并设阶方阵的特征值依次为相应的单位特征向量为令则是的第对kk典型相关变量,为第个典型相关系数.北大数学学院15第十章§10.1总体典型相关典型相关变量的求法若定理10.1.1中Z是半正定的,则不一定存在.我们可以用广义逆矩阵求解。定义10.1.2给定一个矩阵A,如果有矩阵D满足ADA=A,DAD=D,(AD)’=AD,(DA)’=DA,则称D是A的加号逆,记作A+.可以证明A+是存在唯一的.111122,北大数学学院16第十章§10.1总体典型相关典型相关变量的求法定理10.1.2设X=(X1,...,Xp)及Y=(Y1,...,Yq)为随机向量(不妨设p≤q),记随机向量111221221212111222222121212112112221,()0,(Z)0.()(),(')(,).'0(0,1,,m);,,,.(),()(1,mimkkkkkXZEZDYTmrankTTminpqpTTilllalbak已知并设阶方阵的非零特征值依次为相应的单位特征向量为令2,,).',',kkkkkmVaXWbYXYkk则是的第对典型相关变量,为第个典型相关系数.北大数学学院1112',',1,,);(,,)',(,,)'.,=diag(,,,).(1)1,,)(2)1,,)(3)()(4)(,)(1,,).kkkkpppppiiiiiiiVaXWbYXYkkpVVV是的第对典型相关变量(令则其中此性质说明:(互不相关;(互不相关;与互不相关;17第十章§10.1总体典型相关典型相关变量的性质性质1北大数学学院18第十章§10.1总体典型相关典型相关变量的性质性质2原始变量与典型变量之间的相关性(也称为典型结构)1212111111122122(,,,),(,,,),(,,)'=(',,')'',(,,)'=(',,')'',cov(,)cov(,'),cov(,)cov(,'),cov(,)cov(,'),cov(,)cov(,').ppppppAaaaBbbbVVVaXaXAX记则有北大数学学院19第十章§10.1总体典型相关典型相关变量的性质北大数学学院20北大数学学院21第十章§10.2样本典型相关样本典型相关变量和典型相关系数设总体Z=(X1,...,Xp,Y1,…,Yq)’.在实际问题中,总体的均值E(Z)=和协差阵D(Z)=通常是未知的,因而无法求得总体的典型相关变量和典型相关系数.首先需要根据观测到的样本资料阵对其进行估计.已知总体Z的n个样品:()()()()1(1,2,...,)tttpqXZtnY北大数学学院22第十章§10.2样本典型相关样本典型相关变量和典型相关系数样本资料阵为x11x12…x1py11y12…y1qx21x22…x2py21y22…y2q……………………..xn1xn2…xnpyn1yn2…ynq若假定Z~N(,),则协差阵的最大似然估计为Z’(1)Z’(2)=...Z’(n)'()()11()()ntttZZZZSndef=*北大数学学院23第十章§10.2样本典型相关样本典型相关变量和典型相关系数我们从协差阵的最大似然估计S*(或样本协差阵S)出发,按上节的方法可以导出样本典型相关变量和样本典型相关系数.还可以证明样本典型相关变量和样本典型相关系数是总体典型相关变量和样本典型相关系数的极大似然估计.也可以从样本相关阵R出发来导出样本典型相关变量和样本典型相关系数.北大数学学院24第十章§10.2样本典型相关典型相关系数的显著性检验总体Z的两组变量X=(X1,...,Xp)’和Y=(Y1,…,Yq)’如果不相关,即COV(X,Y)=12=0,以上有关两组变量典型相关的讨论就毫无意义.故在讨论两组变量间相关关系之前,应首先对以下假设H0作统计检验.(1)检验H0:12=0(即1=0)设总体Z~Np+q(,).用似然比方法可导出检验H0的似然比统计量为(A,A11,A22为离差阵)11221122||||||ASAASS北大数学学院25第十章§10.2样本典型相关典型相关系数的显著性检验(2)检验H0(i):i=0(i=2,...,p)当否定H0时,表明X,Y相关,进而可得出至少第一个典型相关系数1≠0.相应的第一对典型相关变量V1,W1可能已经提取了两组变量相关关系的绝大部分信息.两组变量余下的部分可认为不相关,这时有必要再检验:00(2,,).ikpH因此在否定后,()0:0(2,,).kkHkp取检验统计量为221ˆ[(1)]ln(1)()2(1)(1).pkikikkQnkpqffpkqk其中北大数学学院26第十章§10.2样本典型相关样本典型变量的得分值
本文标题:典型相关分析
链接地址:https://www.777doc.com/doc-4046976 .html