您好,欢迎访问三七文档
典型相关分析典型相关分析是研究两组随机变量pXXXX,,,21与qYYYY,,,21之间的相关关系,探讨它们之间相关关系的表达方式与强弱的度量。在实际问题中,经常遇到要研究一部分变量与另一部分变量之间的相关关系,例如:在工厂里,考察原料的若干项质量指标pXXX,,,21与产品的若干项主要质量指标qYYY,,,21之间的相关性;在经济学中研究几种主要肉食品的价格与销售量之间的相关性;在气象学中研究相继两天气象因子间的相关性;在卫生防疫中研究某些疾病与生活习惯之间的相关性,等等。典型相关分析方法采用主成分分析的做法,在每一组变量中都适当构造若干个有代表性的综合性指标(变量的线性组合),通过考察这些综合性指标间的相关性来揭示两组原始变量间的相关关系。设paaaa,,,21,qbbbb,,,21是两个按某种规则确定的常值向量,则ppXaXaXaXa2211可看作是第一组随机变量pXXX,,,21的某项综合性指标,qqYbYbYbYb2211可看作是第二组随机变量qYYY,,,21的某项综合性指标,规则是希望通过适当选择向量ba,,使综合性指标Xa与Yb有最大相关系数。由bYDbaXDabYXCovaYbDXaDYbXaCovYbXa,,,可知,若不对向量ba,加以适当限制,使相关系数YbXa,达到最大的ba,将不唯一。这是因为,随机变量乘以常数后不改变相互间的相关系数。较为合理的限制是1aXDa且1bYDb。于是构造具有最大相关系数的两个综合性指标Xa与Yb的问题就转化为在约束条件1aXDa,1bYDb之下求ba,,使bYXCova,达到最大。如果qp维随机向量YX的协方差矩阵YYYXXYXX已知则babYXCovaXY,(10.14)aaaXDaXX(10.15)bbbYDbYY(10.16)两综合性指标Xa与Yb的构造就转化为求解约束优化问题11bbaatsbaYYXXXYba..min,(10.17)经过一系列的理论推导,可以匹配出r对综合性指标Xai和Ybi,ri,,2,1,根据它们间相关系数的大小,依次称Xa1,Yb1是X,Y的第一对典型相关变量,它们间具有最强的线性相关性,其相关系数1称第一典型相关系数;称Xa2,Yb2是X,Y的第二对典型相关变量,它们间的线性相关性仅次于第一对典型相关变量,其相关系数2称第二典型相关系数;等等。从数学手段上看,就是先求矩阵YXYYXYXXA11或XYXXYXYYB11的非零特征根022221r,再求矩阵A和B与各特征根相配对的分别满足条件1iXXiaa,1iYYibb的特征向量iiba,ri,,2,1。例:考查吸烟者的年龄体形(指标为:1X——年龄;2X——体重;3X——日吸烟量;4X——胸围)与基本健康状况(指标为:1Y——脉搏;2Y——收缩压;3Y——舒张压)之间的相关关系。由于总体的协差阵未知,为了进行样本典型相关分析,随机抽取了容量为15的样本,测得观测值如表10.1所示。表10.1年龄(岁)体重(斤)日吸烟量(支)胸围(厘米)脉搏(次/分)收缩压(mmHg)舒张压(mmHg)251253083.57013085261312582.97213580281283588.17514090291264088.47814092271264580.67313885321182088.47013080311201887.86813575341242584.67013575361282588.07514080381242385.67214586411354086.37614888461434584.88014590471414887.98214892481395081.68515095451405588.08816095算得样本协差阵:X1X2X3X4Y1Y2Y3X166.55249.71957.0382.20536.72953.56229.362X249.71962.69577.848-2.57640.30050.61037.838X357.03877.848144.781-5.59563.32975.01969.633X42.205-2.576-5.5957.0001.0792.5240.260Y136.72940.30063.3291.07935.25742.97134.086Y253.56250.61075.0192.52442.97166.63840.610Y329.36237.83869.6330.26034.08640.61044.410即00075955576220525955781144848770385757628487769562719492052038577194955266................XX410446104008634610406386697142086349714225735.........YY260052420791633690197532963838376105030040362295625372936............XYYXYYXYXXA11=0090759045503930007070503340199000201770157013200370149023304150................求得矩阵A的特征根:915021.,339022.,032023.,000024.相应得典型相关系数:95701.,58202.,18203.,04由于3相对于21,已经很小,只计算前两对典型相关变量即可。进一步算得对应于915021.,339022.的分别满足条件1iXXiaa,21,i的特征向量07200580019003101.,.,.,.a01900890014013902.,.,.,.a类似地可算得XYXXYXYYB11=33200320108001902880111061082706670.........0210021012101.,.,.b2270155003202.,.,.b故得第一对典型相关变量432110720058001900310XXXXXa....3211021002101210YYYYb...其典型相关系数95701.第二对典型相关变量43212019.0089.0014.0139.0XXXXXa3212227015500320YYYYb...其典型相关系数582.02对于典型相关分析的以上结果,可以归纳出一些概括性的结论:做为年龄体形的第一项综合性指标432110720058001900310XXXXXa....,由于34XX,的系数相对较大,表明该项指标主要由胸围和每日的吸烟量所决定。而做为与该项指标有最大线性相关关系的健康状况综合性指标3211021002101210YYYYb...则主要由脉搏次数所决定。又由于第一典型相关系数95701.为正且很接近于1、34XX,与1Y的系数皆为正,说明每分钟的脉搏次数与胸围和吸烟量有非常密切的正相关关系,即胸围越大、吸烟量越多,心跳就越快。
本文标题:典型相关分析模型
链接地址:https://www.777doc.com/doc-4482660 .html