您好,欢迎访问三七文档
当前位置:首页 > 商业/管理/HR > 经营企划 > 第11两变量关联性分析
第十一章两变量关联性分析前面章节中讲述了单一数值变量的统计分析方法,但在医学科学研究中,常要分析变量间的关系,如年龄与血压、药物剂量和动物死亡率、环境介质中污染物浓度与污染源距离等,回归与相关就是研究这种关系的统计方法,属于双变量分析范畴。第一节线性相关一、直线相关的概念及其统计描述例11-1随机抽取15名健康成人,测定血液的凝血酶浓度(单位/毫升)及凝固时间(秒),数据如表11-1所示。据此资料如何判断这两项指标间有否相关?表11-115名健康成人凝血时间与凝血酶浓度测量值记录受试者号123456789101112131415凝血酶浓度1.11.21.00.91.21.10.90.61.00.91.10.91.11.00.7凝血时间1413151513141617141615161415171、散点图凝血酶浓度(单位/毫升)1.31.21.11.0.9.8.7.6.5凝血时间(秒)181716151413121).正相关:散点呈椭圆形分布,Y随X的增加而增加,X随Y的增加而增加,即两变量X、Y同时增大或减小,变化趋势是同向,称为正相关;各点的排列越接近椭圆的长轴,相关也就越密切。当各点的分布在一条直线上时,则X与Y就是完全正相关了。2).负相关散点呈椭圆形分布,Y随X的增加而减少,X随Y的增加而减少,变化趋势是反向的,称为负相关;各点的排列越接近椭圆的长轴,相关也就越密切。当各点的分布在一条直线上时,则X与Y就是完全负相关了。3).零相关:无论X增加还是减少,Y不受其影响,反之,X也不受Y的影响。2、相关系数它又称为积差相关系数,以符号r来表示相关系数。它是说明两变量间相关关系的密切程度和相关方向。的方差的方差的协方差和相关系数=YXYX现在我们来解释协方差(covariance)的含义。当样本值为(x1,y1),(x2,y2),…(xn,yn)时,x和Y的样本均数分别为1Xnxxni的样本方差yx和1ynyyni的样本方差1YXnyyxxni的样本协方差和二、相关系数的假设检验r是样本相关系数,它是总体相关系数的估计值。要判断X、Y间是否有相关关系,就要检验r是否来自总体相关系数为零的总体。对相关系数的假设检验方法有两种:1、查表法2、采用t检验检验统计量为:例11-3前面所得r值,检验健康成人凝血浓度与凝血时间间是否有直线相关。三、线性相关应用中应注意的问题1、样本的相关系数接近零时并不意味着两变量间一定无相关性。2、一个变量的数值人为选定时莫作相关3、出现异常点时慎用相关4、相关未必真有内在联系5、分层资料盲目合并易出假象。第二节秩相关一、秩相关的概念及其描述秩相关,又称为等级相关,适用于下列资料(1)不服从双变量正态分布不宜作积差相关(2)总体分布型未知(3)用等级表示的原始。下面介绍最常用的Spearman等级相关例11-4某地研究2~7岁急性白血病患儿的血小板数与出血症状程度之间的相关性,结果见表11-2,试用秩相关分析。病人编号血小板秩次p2现血症状秩次q2pq(1)(2)(3)(4)(5)(6)(7)(8)112111+++11.5132.511.5213824++9.08118316539+7.049214310416-3.512.25145426525++9.081456540636++9.081547740749-3.512.2524.581060864-3.512.252891260981-3.512.2531.510129010100-3.512.253511143811121++++11.5132.25126.512200412144-3.512.2542合计_78650_78630451一、Spearman等级相关它是用等级相关系数rs说明两变量间相关关系的密切程度和方向。rs也应进行相关性检验,在n小于等于50时用查表法,当n大于50时计算统计量t值:即前面的积差相关系数的检验假设t值本例计算二、秩相关系数的统计推断查rs临界值表,间无相关关系。儿的出血症状与血小板可以认为急性白血病患,的水准,接受=按01.0,12H05.0,1.0,503.0Prrs第三节分类变量的关联性分析对两个定量变量间线性联系我们用pearson积差相关系数或秩相关系数来描述,对于定性变量间的联系通用方法是根据两个定性变量交叉分类计数所得的频数资料作关联(association)分析,即关于两独立性的卡方检验。一、交叉分类2*2表的关联性分析例11-6为观察婴儿腹泻是否与喂养方式有关,某医院儿科随机收集了消化不良的婴儿82例,把该院儿科所有消化不良的患儿视为一个总体的话,则该院82例患儿可看成是一份随机样本。对每个个体分别观察腹泻与否和喂养方式两种属性,2*2种结果分类记数如表11-3所示。试分析两种属性的关联性。表11-3婴儿腹泻与喂养方式的关系喂养方式腹泻合计有无人工301040母乳172542合计4735822*2交叉分类频数表的一般形式如表11-4表11-42*2交叉分类频数表的一般形式所谓两属性X和Y互相独立(independence),是指属性X的分布的概率与属性Y的概率分布无关,否则称这两种属性之间存在关联性。从概率的角度考虑,独立是指在交叉分类表每一格子中同时具有两种属性的联合概率等于相应属性的边际概率的乘积。ij=(ri)(cj)i,j=1,2欲检验的假设为:H0:两属性之间相互独立,属性X属性Y合计Y1Y2X1A11(11)A12(12)n1(r2)X2A21(21)A22(22)n2(r2)合计m1(c2)m2(c2)nH1:两属性之间相互关联检验统计量仍采用拟合优度卡方检验:现讨论理论频数的计算在H0成立的条件下必有:ij=(ri)(cj)。由于(ri)和(cj)未知,只能用样本中的频数近似地代替ijijijTTA22nnnncjciriri,nnnnnnnncjrjijijijcjricjriijTTH0估计公式为:数成立的条件下,理论频于是现就例11-6的数据作两种属性的关联性分析H0:喂养方式与腹泻之间互相独立H1:喂养方式与腹泻之间有关联=0.05则拒绝原假设,,说明婴儿腹泻与喂养方式之间存在着关联性。关于两个分类变量关联程度,我们可用Peason列联系数(contingencycoefficient)来描述:005.0,88.798.935474240821017253021,005.0222P本例列联系数为:列联系数介于0与1之间,理论上也应就总体列联系数是否为0作假设检验,但这个假设检验等价于上述的卡方检验。nr22329.08298.998.922nr二、2*2配对资料的关联性分析例11-7有56份咽喉涂抹标本,把每份标本一分为二,依同样的条件分别接种于甲、乙两种白喉杆菌培养基上,观察白喉杆菌生长情况,结果见表11-5,问两种培养基的结果有无关联?表11_5两种白喉杆菌培养结果甲培养基乙培养基合计+_+221840_21416合计243256H0:两种培养基之间互相独立H1:两种培养基之间有关联=0.05则拒绝原假设,两种培养基之间存在着关联性。进一步计算列联系数。005.0,88.743.83224164056218142221,005.0222Pnr22本例列联系数为:列联系数介于0与1之间,理论上也应就总体列联系数是否为0作假设检验,但这个假设检验等价于上述的卡方检验。nr223617.05643.843.822nr三、R*C分类资料的关联性例11-8某地居民主要有三种祖籍,均流行甲状腺肿。为探讨较甲状腺肿与祖籍是否有关联,现根据居民甲状腺肿复查结果,按甲状腺肿类型与祖籍两种属性交叉分类,得表11-6的资料。问甲状腺肿与祖籍有无关系?表11-6某地居民按甲状腺肿类型与祖籍两属性的交叉分类表祖籍甲状腺肿类型合计弥漫型结节发型混合型甲48624492乙13326051444丙10031585500合计7195771401436:甲状腺肿类型与祖籍无关联:甲状腺肿类型与祖籍有关联对于此类资料,研究常常分析两分类变量间有无关系?关系的密切程度如何?此时可用行*列表的卡方检验来推断两个分类变量间有无关系:在有关系的前提,若须进一步分析关系的密切程度时,可计算Pearson列联系r。列联系数取值范围在0-1之间.22nr579.01436783.723783.72322nr例11-9测得某地1043人的ABO血型和MN血型结果如果下表,问两种血型系统之间是否有关联?表11-7某地1043人的血型ABO血型MN血型合计MNMNO85100150335A5678120254B98132170400AB2325654合计2623354461043156.01043925.25925.2522nC第六节小结本章主要介绍了两变量间的关联性。对不同类型,可用不同的统计方法去描述它们间的关联程度。1、服从正态分布的两连续变量,若有一份随机样本,可绘制散点,发现有直线趋势,进而计算Pearson相关系数,以描述两变量的线性关系。2、对不满足正态分布的两连续变量,若有一份随机样本,仍可绘制散点,发现有直线趋势,进而计算Spearman秩相关系数,以描述两变量的相关关系。3、对两个反映属性的分类变量,若有一份随机样本,可作交叉分类的频数表,利用独立性的卡方检验和列联系数来描述关联性。4、相关系数和列联系数的计算都是基于一份双变量随机样本;尽管将多组样本比较的资料公代入公式也能进行计算,但计算结果并不是总体相关系数的估计值,没有任何意义。5、相关系数与列联系数只能描述两变量间在数量上的联系并不意味着物理、生理或心理上的联系,联系更不意味着因果。
本文标题:第11两变量关联性分析
链接地址:https://www.777doc.com/doc-3351378 .html