您好,欢迎访问三七文档
课时授课计划课次序号:22一、课题:实验九典型相关分析二、课型:上机实验三、目的要求:1.掌握典型相关分析的理论与方法、模型的建立与显著性检验;2.掌握利用典型相关分析的SAS过程解决有关实际问题.四、教学重点:典型相关分析的SAS过程.教学难点:相关分析的理论与方法、模型的建立与显著性检验.五、教学方法及手段:传统教学与上机实验相结合.六、参考资料:《应用多元统计分析》,高惠璇编,北京大学出版社,2005;《使用统计方法与SAS系统》,高惠璇编,北京大学出版社,2001;《多元统计分析》(二版),何晓群编,中国人民大学出版社,2008;《应用回归分析》(二版),何晓群编,中国人民大学出版社,2007;《统计建模与R软件》,薛毅编著,清华大学出版社,2007.七、作业:4.94.10八、授课记录:九、授课效果分析:授课日期班次实验九典型相关分析(CanonicalCorrelationAnalysis)(2学时)一、实验目的和要求能利用原始数据与相关矩阵、协主差矩阵作相关分析,能根据SAS输出结果选出满足要求的几个典型变量.二、实验内容1.典型相关分析的SAS过程—PROCCANCORR过程基本语句:PROCCANCORRdata=数据集OUT=SAS数据集OUTSTAT=SAS数据集CORRNCAN=mEDF=n-1;VARvariables;WITHvariables;RUN;说明:此过程输入数据可以是原始数据,也可以是相关系数矩阵或协方差矩阵,输出结果包含相关系数矩阵、典型相关系数、典型变量的系数、典型变量对之间的相关性检验的F统计量值、自由度、p值、典型变量与原始变量的相关系数等.(1)proccancorr语句的选项列表:OUT=SAS数据集——创建含原始数据和典型相关变量得分(观测值)的SAS集.OUTSTAT=SAS数据集——创建含原始变量的样本均值、样本标准差、样本相关系数阵、典型相关系数和典型变量的标准化和非标准化系数等SAS集.CORR(或C)——打印原始变量的样本相关系数矩阵.NCAN=m——规定要求输出的典型变量对个数,默认为两组变量个数较小者.EDF=n-1——针对输入原始数据集为样本相关系数矩阵或样本协方差矩阵,借此选项指定样本容量为观测个数减1.输入为原始观测数据时,省略此项.all——所有输出项.noprint——不输出分析结果.short——只输出典型相关系数和多元分析统计数.simple——简单统计数.vname=变量名——为var语句的变量定义名称.vprefix=前缀名——为var语句的典型变量定义前缀.wname=变量名——为with语句的变量定义名称.wprefix=前缀名——为with语句的典型变量定义前缀.(2)VARvariables——VAR后列出进行相关分析的第一组变量名称.(3)WITHvariables——WITH后列出进行相关分析的第二组变量名称var与with语句经常同proccancorr语句一起使用.其他语句类似corr过程.2.典型相关分析步骤两组随机变量TqTpYYYXXX),,,(,),,,(2121YX,取值TqTpyyyxxx),,,(,),,,(2121yxn组观测数据TiqiiiTipiiiyyyxxx),,,(,),,,(2121yx,标准化样本),,,(),,,(22221111**2*1*pppipiiTipiiisxxsxxsxxxxxxTqiqiiiyyyyyy),,,(1111221111*yni,,2,1样本相关系数矩阵22211211RRRRR为总体TTT),(YX相关系数矩阵的估计.样本典型相关分析步骤:(1)求2112212111*RRRRA(1211121122*RRRRB)的特征值022221p(2)求2112212111*RRRRA和1211121122*RRRRB对应的正交单位化特征向量peee,,,21和pfff,,,21(3)第k对典型相关变量为*2122**2111*,yRfxReTkkTkkVU,其中),,,(),,,,(**2*1***2*1*qpyyyxxxyx样本典型相关系数为kVUkk**,,pk,,2,1(4)典型相关系数的显著性检验0:0:)(1)(0kkkkHHpk,,2,1统计量),(~121/1/112)(0kkHkktkkkkddFddFk真检验p值为)),(()(210kkkkkHkfddFPfFPp若p,拒绝)(0kH.依次就pk,,2,1进行检验,若对某个k,检验p值首次满足p,则认为只有前1k对典型变量显著相关,选取前1k对即可.注意:利用样本协方差矩阵,分析方法一样.不需要对数据标准化处理.3.实例分析例4.6为研究空气温度与土壤温度的关系,考虑六个变量:1X日最高土壤温度;:2X日最低土壤温度;:3X日土壤温度积分值;:1Y日最高气温;:2Y日最低气温;:3Y日气温曲线积分值.观测了46n天,数据如表4.7.TTYYYXXX),,(,),,(321321YX,做典型相关分析.解:(1)建立输入数据集,程序如下:dataexamp4_6;inputx1-x3y1-y3;cards;85591518465147866115984651498364152796614283651588167147886918084681677767147746613178691597366131846815975671348971195846816191762068672169917620688731769476211907418794752118872171927020158721718768167816915483681627968149876617384691608768177847016088701698470168836617077671479267196876716692721998969171947220489721809273201937218693722069374188947220894751999573214937419395702109374196957120796751989569202957620296691738473173916916891711708970189887217995712108972179967320891721829775215927419696691989475192956719696751959475211937619892731988874188907419788741789470205917217595712099272190967220892731899571208947519496712089676202;run;(2)调用典型相关分析cancorr过程菜单操作方法为,选择Globals/SAS/Assist/Dataanalysis/multivariate/canonicalcorrelationanalysis(典型相关分析)菜单命令.编程方法如下:proccancorrdata=examp4_6corr;/*调用相关分析过程,打印样本相关系数矩阵*/varx1-x3;/*第一组变量x1-x3*/withy1-y3;/*第二组变量y1-y3*/run;由SASproccancorr过程求得TYYYXXX),,,,,(321321样本相关系数矩阵22211211RRRRRSAS系统10:24Sunday,November2,200814TheCANCORRProcedureCorrelationsAmongtheOriginalVariablesCorrelationsAmongtheVARVariables(变量x1-x3的相关系数矩阵11R)x1x2x3x11.00000.57050.8751x20.57051.00000.7808x30.87510.78081.0000CorrelationsAmongtheWITHVariables(变量y1-y3的相关系数矩阵22R)y1y2y3y11.00000.67050.7850y20.67051.00000.9324y30.78500.93241.0000CorrelationsBetweentheVARVariablesandtheWITHVariables变量x1-x3与y1-y3的相关系数矩阵12Ry1y2y3x10.71360.84000.9143x20.37960.68090.5907x30.62560.81850.8695变量间高度相关。SAS系统10:24Sunday,November2,200815TheCANCORRProcedureCanonicalCorrelationAnalysis典型相关分析的一般结果AdjustedApproximateSquaredCanonicalCanonicalStandardCanonicalCorrelationCorrelationErrorCorrelation典型相关系数k校正的典型相关系数近似的标准误典型相关系数平方11=0.9278570.9223450.02073321=0.86091922=0.5621810.5398330.10195822=0.31604733=0.165974.0.14496523=0.027547(3)检验各对典型变量是否显著相关表4.8各对典型变量相关性检验结果EigenvaluesofInv(E)*HTestofH0:Thecanonicalcorrelationsinthe=CanRsq/(1-CanRsq)即)1/(22kkcurrentrowandallthatfollowarezeroLikelihoodApproximateEigenvalueDifferenceProportionCumulativeRatioFValueNumDFDenDFPrF各对相关系相邻两特特征值占特征值占方差似然比kkF值kd1kd2kp数特征值征值之差方差比例比例累计值16.19015.72800.92660.92660.0925044017.98997.5.000120.46210.43380.06920.99580.665111584.644820.002030.02830.00421.00000.972452681.191420.2816检验假设0:)(0kkH检验统计量),(~121/1/112)(0kkHkktkkkkddFddFk真,kkdd21,为第一、第二自由度.由检验结果可知,05.0,05.021pp,05.02816.03p.故只有前两对典型变量显著相关.取前两对进行分析即可.另外,从对典型变量),(kkVU进行分析求得特征值在方差占比例的累计值(贡献率)为0.9958也可看出,只需要前两对变量即可.以下输出用wilks’Lambda等四种方法对典型相关系数为零的假设检验MultivariateStatisticsandFApproximationsS=3M=-0.5N=19StatisticValueFValueNumDFDenDFPrF统计方法F值检验p值Wilks'Lambda0.0925044017.98997.5.0001Pillai'sTrace1.204513669.399126.0001Hotelling-LawleyTrace6.6804708129.18959.755.0001Roy'sGreatestRoot6.1900536086.66342.0001
本文标题:实验九典型相关分析
链接地址:https://www.777doc.com/doc-6283487 .html