您好,欢迎访问三七文档
当前位置:首页 > 商业/管理/HR > 经营企划 > 第十一章两变量关联性分析实习指导(定)
1of14第十章两变量关联性分析[教学要求]了解:利用散点图分析样本相关系数可能出现的各种假象,并作出合理解释。熟悉:对不同类型的变量,用不同的统计方法去分析它们之间的关系。掌握:利用散点图确定两个定量变量之间有否线性关系;能把握利用Pearson积差相关、Spearman等级相关的应用条件并能计算相应的相关系数,同时进行假设检验;对分类计数频数表资料的两变量间的关联性作定量分析。[重点难点]第一节线性相关对服从正态分布的两变量随机样本,可通过绘制散点图,观察发现有线性趋势之后,进而计算Pearson积差相关系数;nininiyyxxxyyyxxyyxxlllr11221)()())((对积差相关系数r的假设检验可用查表法或t检验。这里要注意的是不可用相关系数检验所得P值的大小来判断有否线性关系。一定要先绘制散点图,看出两变量间有线性趋势时,再计算积差相关系数,这应该视为一种规范的做法。第二节秩相关对不满足正态分布的两变量随机样本,可采用Spearman秩相关来分析。这里的不满足正态分布包括非正态变量,也包括总体分布规律未知的变量;不满足正态分布的可以是双变量中的一个,也可以是两个。教材中的例10-5是研究2~7岁急性白血病患儿的血小板数与出血症状程度之间的相关性,其中,血小板数是定量资料,是否正态暂且不论,而出血症状是一个等级资料,因而这一对变量不满足2of14Pearson积差相关的应用条件,只能采用秩相关性系数作相关的量化分析。Spearman秩相关系数或等级相关系数的计算公式同Pearson积差相关系数的计算公式形式上一样,但在计算秩相关性时不再用原来的数据,而是对两变量分别排序编秩,以各数据对应的秩次代入Pearson积差相关系数的计算公式中去计算;秩相关系数用sr表示,对其检验也是用查表法或t检验。若以ip表示Xi秩次;iq表示Yi的秩次,di=ip-iq表示成对秩次的差值,则Spearman秩相关系数的计算也可采用下式:)1(6112nndrniis显然Pearson积差相关与Spearman秩相关之间有联系也有区别。主要联系是:1.两者都可用于刻划两变量间线性相关的方向与密切程度,其取值范围与数值大小的统计学意义解释也相同。2.两者都要求个体间满足独立性。3.Spearman秩相关系数的计算可采用对秩次的Pearson积差相关系数的计算来实现。4.样本量大时,两者的假设检验方法近似。主要区别是:1.Pearson积差相关要求数据服从正态分布,属于参数统计量;而Spearman秩相关系不要求正态分布,属于非参数统计量。2.两者总体参数的假设检验方法不完全相同(主要是s与的分布不同)。第三节分类变量的关联性分析首先要明了这里分析的资料是按两种属性分类的频数表资料,含配对分类频数资料。包括双向无序和单向有序两种类型。这些资料都可用2的独立性检验和列联系数来考察和刻划两变量间的关联性。这里要注意的是本章所介绍的关联性分析的2检验所用的公3of14式与前面第7章两个或多个频数分布比较的2检验所用的公式完全相同;但它们的设计和意义有着根本区别,作关联性分析的资料是一份随机样本,同时按两种属性分类,而第7章中两个或多个频数分布是两份或多份样本,谈不上关联性的问题。所以,和分析两个定量变量的相关性一样,分析两个分类变量的关联性也只能基于一份双变量的样本。当两变量都是无序分类变量或一个是无序分类变量、另一个是有序分类变量时,可利用Pearson列联系数作两变量间关联性分析。计算公式为nr22关于Pearson列联系数是否为零的检验等价于Pearson2检验。[案例讨论参考答案]案例11-1Pearson积差相关在对两定量变量间的相关性分析的实际问题中有广泛的应用,但在许多情况下,应用者忽视了Pearson积差相关的应用条件,把不是正态分布的变量间的关系也作Pearson相关分析,例如这里的水质的碘含量是定量资料,是否正态分布权且不论,但甲状腺肿的患病率是属二项分布的分类资料,这显然不符合Pearson积差相关的条件,这份资料实际上该作Spearman等级相关。当然,若作者采集数据时有临床的检测指标,如有关判断是否为甲状腺肿的血相指标、I131的吸收率等,那么可采用Pearson积差相关的办法来确定水质的碘含量与检测居民的血相指标或I131的吸收率间有无线性关系是可以的,但现在的数据是水质的碘含量与甲状腺肿的患病率,对这两个变量就不能用Pearson积差相关,应该采用Spearman等级相关分析。案例11-2这里是三组独立样本的比较,据此不能考察关联性和计算关联系数。案例11-3这里年龄和疗效都是有序变量,应当采用Spearman等级相关系数,而不应采用Pearson列联系数。[电脑实验及结果解释]实验11-1线性相关系数的计算4of14程序11-1线性相关系数的计算行号程序解释01DATAex1;建立数据集ex1;02INPUTxy@@;定义变量x和y并连续读入数据;03CARDS;数据步说明语句;041.11405………060.71707;数据步结束;08PROCGPLOT;调用GPLOT过程绘制散点图;09PLOTy*x;指定以y为纵坐标,x为横坐标;10PROCCORR;调用CORR过程进行相关分析,默认Pearson相关;11VARxy;指定分析变量;12RUN;运行程序;运行结果:Output窗口:相关分析过程的基本统计量描述:TheCORRProcedure2Variables:xySimpleStatistics(基本统计量)VariableNMeanStdDevSumMinimumMaximumx150.980000.1698714.700000.600001.20000y1514.933331.27988224.0000013.0000017.00000Pearson相关系数及其假设检验:PearsonCorrelationCoefficients,N=15(Pearson相关系数)Prob|r|underH0:Rho=0xyx1.00000-0.92646(Pearson相关系数值).0001(相关系数的P值)y-0.926461.00000.0001Graph窗口:变量x和y散点图5of14y1314151617x0.60.70.80.91.01.11.2实验11-2秩相关系数的计算程序11-2秩相关系数的计算行号程序解释02INPUTxy@@;定义并连续读入变量x和y;03CARDS;数据步说明语句;04121305………062004007;数据步结束;08PROCCORRSpearman;调用CORR过程进行等级相关分析;09VARxy;指定分析变量;10RUN;运行程序;运行结果:Output窗口:相关分析过程的基本统计量描述:TheCORRProcedure2Variables:xySimpleStatisticsVariableNMeanStdDevMedianMinimumMaximumx12791.00000612.64508640.00000121.000002004y121.083331.240110.5000003.00000Spearman相关系数及其假设检验:SpearmanCorrelationCoefficients,N=12Prob|r|underH0:Rho=0xyx1.00000-0.42225(Spearman相关系数)0.1715(相关系数的P值)y-0.422251.000006of140.1715实验11-3从0与0的总体作r的抽样实验程序11-3相关系数的抽样与检验行号程序解释01DATAb;建立数据集b;02ARRAYy(*)y1-y100;说明数组变量y,其元素包括y1~y100;03DOi=1TO20;设立20次的循环;04x1=RANNOR(0);产生服从标准正态分布的随机数x1;05x2=RANNOR(0);产生服从标准正态分布的随机数x2;06DOj=1TO100;设立100次的循环;07y(j)=RANNOR(0)+x1;产生服从)1,(1XN的随机数y;08END;结束本次循环;09OUTPUT;将数据写入数据集;10END;结束循环;11ODSLISTINGCLOSE;关闭常规输出方式;12ODSOUTPUTPEARSONCORR=corr;将相关分析的结果输出到数据集corr中;13PROCCORR;调用CORR过程进行相关分析;14VARx1x2;WITHy1-y100;指定分析变量是x1与y1-y100、x2与y1-y100;15ODSLISTING;开启常规输出方式;16DATApp;建立数据集pp;17SETcorr;读入数据集corr中的数据;18err2=px10.05;px1为x1与相应y的相关系数假设检验的P值,px10.05则err2=1(犯第Ⅱ类错误);19err1=px20.05;px2为x2与相应y的相关系数假设检验的P值,px20.05则err1=1(犯第Ⅱ类错误);20PROCPRINT;输出结果;21SUMerr1err2;求err1和err2的合计;22RUN;运行程序;说明:该程序只能在SAS8.0以上版本中运行。运行结果:Output窗口:(数据太多,仅显示部分)抽样数据的基本统计描述:SimpleStatisticsVariableNMeanStdDevSumMinimumMaximumy1200.253391.032615.06789-1.313732.38534y2200.398471.330667.96940-2.695433.08107y3200.007431.130590.14869-1.696252.82633……………7of14y99200.828581.6549216.57168-1.746143.84643y100200.490181.227409.80351-1.442982.70119x1200.233850.878044.67697-1.268791.81231x220-0.123750.98978-2.47500-1.768441.36877相关分析结果:TheCORRProcedurePearsonCorrelationCoefficients,N=20Prob|r|underH0:Rho=0x1x2y10.79902-0.14686.00010.5367y20.66185-0.152210.00150.5218……………y990.76729-0.01753.00010.9415y1000.440880.148050.05170.5334100次相关分析的相关系数、对应P值及犯错次数:ObsVariablex1x2Px1Px2err2err11y10.79902-0.14686.00010.5367002y20.66185-0.152210.00150.5218003y30.68732-0.255140.00080.277600……………98y980.30776-0.413470.18680.07001099y990.76729-0.01753.00010.941500100y1000.440880.148050.05170.533410========66实验11-4两变量独立性检验程序10-4两变量独立性检验的摸拟实验行号程序解释01DATAa;建立数据集a;02DOi=1TO1000;设立1000次的循环;03x=RANBIN(0,1,0.2);产生服从二项分布的随机数x,模拟从第1个口袋摸球;04y=RANBIN(0,1,0.2);产生服从二项分布的随机数y,模拟从第2个口袋摸球;05z=RANBIN(0,1,0.8);产生服从二项分布的随机数z,模拟从第3个口袋摸球;06IFx=1THENz=RANBIN(0,1,0.2);如果x=1(黑球)则从第2个口袋摸球;07
本文标题:第十一章两变量关联性分析实习指导(定)
链接地址:https://www.777doc.com/doc-2089412 .html