您好,欢迎访问三七文档
第7章相关分析相关分析的概念相关分析是研究变量间密切程度的一种常用统计方法。线性相关分析研究两个变量间线性关系的程度。相关系数是描述这种线性关系程度和方向的统计量,通常用r表示。如果一个变量Y可以确切地用另一个变量X的线性函数表示,那么,两个变量间的相关系数是+1或-l。如果变量Y随着变量X的增、减而增、减,即变化的方向一致。例如身高与体重的关系,身高越高,体重相对也就越大。这种相关称为正向相关,其相关系数大于0。如果变量Y随着变量X的增加而减少,变化方向相反。例如吸烟与肺功能的关系,随着吸烟量增加,时间加长,肺功能下降。这种相关关系称为负相关,其相关系数小于0。相关系数r没有单位;其值在-l~+1之间。当数值愈接近-l或+1之间时,关系愈紧密,接近于0时,关系愈不紧密。对其数值可以从小到大排列的数据才能计算其相关系数。1.积矩相关系数积矩相关系数(又称积差相关系数)适用于等间隔测度,相关系数采用Pearson积矩相关。2.Spearman和Kendall秩相关系数秩相关适用于下列资料:①不服从双变量正态分布②总体分布型未知③用等级表示的资料。(卫生统计四版本28页)Spearman和Kendall秩相关系数是一种非参测度。Spearman相关系数是Pearson相关系数的非参形式。是根据数据的秩而不是根据实际值计算的。也就是说,先对原始变量的数据排秩,根据各秩使用相关系数公式进行计算。它适合有序数据或不满足正态分布假设的等间隔数据。相关系数的值范围也是在-l~+1之间。绝对值越大表明相关越强。相关系数的符号也表示相关的方向。这两种相关系数的计算必须对连续变量值排秩,对离散变量排序。例如,我们可以将一组学生按入学考试成绩和第一学年结业成绩的顺序排队。如果将入学考试成绩的评秩记为X1,X2,XN,而学年结业成绩的评秩记为Y1,Y2,YN,我们就可以用秩相关度量来决定X和Y之间的相关性。Kendall'stau-b也是一种对两个有序变量或两个秩变量间的关系程度的测度,因此也属于一种非参测度。Kenedl秩相关系数比较难于讲解,我们以一个例子来进行Kendall秩相关系数的计算。如果两位鉴定家各自以吸引力的大小将7幅抽象派画评定了秩,那么可能知道这些秩评定之间的相符的程度。画的秩评定表画号2651437鉴别家11234567鉴别家22314657依次取观测2(鉴别家2)给出的秩,数出每一个右面在秩次上比自己小的个数,并将这些个数加起来。例如抽象画2的秩为2,其个数是l,因为其右边的只有抽象画5的秩比它小。6个数依次为1,l,O,0,1和0,所以总和为Q=3,Kendall秩相关系数则为r=1-4Q/n(n-1)=1-12/42=0.7143.偏相关系数。偏相关分析计算偏相关系数,它描述的是当控制了一个或几个另外的变量的影响条件下两个变量间的相关性。例如。可以控制年龄和工作经验两个变量的影响,估计工资收入与受教育程度之间的相关关系。控制了变量Z,变量X与y之间的偏相关,和控制了两个变量Z1、Z2,变量X与y之间的偏相关系数计算公式不同。4.两个或若干变量之间或两组观测量之间的关系有时也可以用相似性或不相似性来描述。相似性测度用大数值表示很相似,较小的数值表明相似性小。不相似性使用距离或不相似性来描述。大值表示相差甚远。5.关于相关系数统计意义的检验由于我们通常是通过抽样方法;利用样本研究总体的特性。由于抽样误差的存在,样本中两个变量间相关系数不为0,不能说明总体中这两个变量间的相关系数不是0,因此必须经过检验。检验的零假设是:总体中两个变量间的相关系数为O。SPSS的相关分析过程给出这假设成立的概率。相关分析的SPSS过程Correlate命令项具有三个相关分析功能的命令。对应着相关分析、偏相关分析和相似性测度的三个SPSS过程。它们是:1.Bivarate(相关分析)命令项调用Correlations过程和NonparCorr过程,按指定项显示变量的描述统计量。计算指定的两个变量间的相关系数,可以选择Pearson相关、Spearman和Kendall'stau-b相关;同时对相关系数进行检验。检验的零假设是:相关系数为0。可以对检验进行单尾或双尾的选择。给出相关系数为0的概率。2Partial(偏相关分析)命令项调用PartialCorr过程,计算两个变量间在控制了其他变量的影响下的相关系数。可以选择单尾或双尾显著性检验。检验的零假设是:偏相关系数为零。还可以要求计算其他描述统计量。3.Distance(距离分析)命令项调用Proximities过程,对变量或观测量进行相似性或不相似性测度。因此分析的变量可以是连续变量、表示频数分布的变量,某些测度还可以适用于二值变量。可以对原始数据和计算出的距离数据进行标准化。如果需要确定两个变量或若干自变量与因变量具体的函数关系,使用相关分析不能达到目的,必须使用回归分析。如果要将观测量或变量归到确定的类中,必须使用聚类分析中的观测量聚类或变量聚类的相应过程。两个变量间的相关分析本节介绍两变量间的相关。包括两个连续变量间的相关和两个等级变量间的秩相关。这两种相关使用同一个命令项Bivarate调用,通过选择不同的分析方法调用不同的分析过程。选择哪一种分析方法要看具体的数据类型。对于连续变量和等级变量选择不同的分析方法。使用系统默认值进行相关分析下面以l962~1988年安徽省国民收入与城乡居民储蓄存款余额两个变量间的线性相关分析为例,说明使用系统默认值进行连续变量相关分析的方法。数据来源于《数理统计与管理》l990年第5期,中国现场统计研究会主办。数据编号data10-01。变量包括:income国民收入(亿元),deposit城乡居民储蓄存款余额,number序号,year年份。二元变量相关分析的选择项1.Pearson调用correlation过程计算连续变量或等间隔测量的变量间的相关系数。2.Kendall'stau-b调用Nonparcorr过程计算分类变量间的秩相关。3.Spearman调用Nonparcorr过程计算斯皮尔曼秩相关。如果参与分析的变量是连续变量,选择Kendall'stau-b或Spearman相关,则系统自动对连续变量的值先求秩,再计算其秩分数间的相关系数。例一:数据编号data09-03。Id:编号,bdate:生日,educ:受教育水平,gender:性别,jobcat:工作分类,minority:少数民族,prevexp:以前工作月数,salary:现在工资,salbegin:起始工资。生成新变量:age=1999-Xdate.year(bdate)例二:数据编号data10-0210名运动员长拳和长兵器两项得分,分析两项得分是否存在相关关系。判断两个变量只可能是正相关,或只可能是负相关时,可选择单尾检验。例三:数据编号data10-03偏相关分析的概念相关分析计算两个变量间的相关系数,分析两个变量间线形关系的程度。往往因为第三个变量的作用,使相关系数不能真正反映两个变量间线形程度。例如身高、体重与肺活量之间的关系。使用Pearson相关计算其相关系数,可以得出肺活量与身高和体重均存在较强的线形关系。但实际上,如果对体重相同的人,分析身高和肺活量。是否身高值越大,肺活量越大呢?结论是否定的。正是因为身高与体重有着线形关系,体重与肺活量才存在线形关系,因此,得出身高与肺活量之间存在较强的线形关系的错误结论。偏相关分析的任务就是在研究两个变量之间的线形相关关系时控制可能对其产生影响的变量。例一:数据编号data10-04分别调用bivariate和partial过程,比较其结果。Partial中:分析身高、肺活量两个变量,体重作为控制变量。偏相关分析的结果是控制了体重的影响,肺活量与身高的相关系数只有0.098,小于0.1,p=0.691,不相关的概率很大。可以说,身高与肺活量无关。例二:数据编号data10-05(四川绵阳地区3年生中山柏的数据)分析月生长量与月平均气温、月降雨量、月平均日照时数、月平均湿度四个气候因素哪个因素有关。Month:月份,hgrow:生长量,temp:月平均气温,rain:月降雨量,hsun:月平均日照时数,humi:月平均湿度。分析变量:hgrow(生长量)与hsun(月平均日照时数)控制变量:humi(月平均湿度)、rain(月降雨量)、temp(月平均气温)中山柏生长量与四个气候因素的偏相关综合结果hsun:humitemprainhgrow.6318(7)p=.068.7310(7)p=0.025.9774(7)p=0.000-0.4906(7)p=0.180中山柏生长量与气温关系最密切,其次湿度;日照时间,相关系数0.6318,不相关概率p=.068,没有显著意义;与降雨量没有线形关系,降雨量过大,还会影响其生长。距离分析1.关于距离分析距离分析是对观测量之间或变量之间相似性或不相似程度的一种测度。这些相似性或距离测度可用于因子分析和聚类分析等。2.有关统计量(1)不相似性测度①等间隔数据的不相似性(距离)测度可以使用的统计量:欧几米德(欧氏)距离、欧氏距离平方等。②计数数据,使用卡方。③二值(只有两种取值)数据,使用欧氏距离、欧氏距离平方等。(2)相似性测度①等间隔数据使用统计量皮尔逊相关或余弦。②测度二元数据的相似性使用的统计量有二十余种。例如:仍使用数据编号data10-05操作步骤:(1)Analyze—Correlate—Distane(2)选择hgrow作为分析变量,移至Variables框中;选择Month作为标识变量,移至LabelCases框中。输出结果:以矩阵形式给出了两两观测量间变量hgrow的欧氏距离。即每两个月份间的中山柏生长量间的差值。其值愈大,不相似性愈大。在进行观测量间不相似性分析时,可以指定若干个分析变量,即根据指定变量组分析观测量间的不相似性。但标识变量只能指定一个。复习题:正确建立适合相关分析的数据库,并进行统计分析。
本文标题:第7章相关分析
链接地址:https://www.777doc.com/doc-2112024 .html