您好,欢迎访问三七文档
第十一章两变量关联性分析儿童身高与体重关系的研究例9-1表9-1为一项关于儿童健康和发展的研究中10名学龄儿童的身高和体重资料,试对学龄儿童的身高(cm)和体重(kg)进行相关分析。表9-110名学龄儿童的身高和体重儿童编号12345678910身高(X)149.35167.64146.30170.69161.54164.59155.45158.50149.35152.40体重(Y)30.8442.6433.1144.0036.2940.8232.6635.3833.1131.75本研究的目的在于探讨学龄儿童的身高(X)和体重(Y)的关系。两个变量间的线性关系基本上可以分为两种:一是两个变量间“关联性”如何?有无线性联系?若有,联系程度如何?如果两个连续型变量X和Y都随机变动且关系是平等的,可通过线性相关(linearcorrelation)分析来刻画它们之间可能存在的线性联系的方向与程度。二是它们之间的“依存性”如何?即一个变量的变化将引起另一个变量多大的变化?可通过下一章的线性回归(linearregression)分析来描述。•一般地,两个连续随机变量间的线性联系称为线性相关(linearcorrelation),也称为简单相关(simplecorrelation),两个分类变量间的联系则称为关联(association)。散点图•判断两个变量是否具有相关关系最直观的办法是绘制散点图(scatterplot),在实际研究中也是首先要做的一步。将两变量置于直角坐标轴上,把其中一变量取作X,另一个取作Y,据此在直角坐标系(X,Y)中标出对应的点来,这样的图形称作散点图。常见的散点图如图11-2所示。相关的种类1)正相关(positivecorrelation):一般地,在图中若有随增大而线性上升的趋势,则称为正相关。2)负相关(negativecorrelation):在图中若有随增大而线性下降的趋势,则称负相关。3)零相关(zerocorrelation):在图中若或不随另一变量的改变而改变,则称零相关。4)非线性相关(nonlinearcorrelation):若散点呈曲线形状,则变量间可能呈曲线关系,不宜做线性相关。关联强度指标--相关系数1.意义:相关系数(correlationcoefficient)又称Pearson积差相关系数,用来说明具有直线关系的两变量间相关的密切程度与相关方向。以符号r表示样本相关系数,符号表示其总体相关系数。2.计算:样本相关系数的计算公式为22()()()()XYXXYYXXYYlrllXXYY(11-3)相关系数=))((的方差的方差的协方差和YXYXX的样本方差=1)(12nXXniiY的样本方差=1)(12nYYniiX和Y的样本协方差=1))((1nYYXXniii相关系数的特点1.相关系数r是一个无量纲的数值,且-1r1;2.r0为正相关,r0为负相关;3./r/越接近于1,说明相关性越好./r/越接近于0,说明相关性越差.•例11-2计算例11-1中凝血酶浓度X与凝血酶时间Y之间样本相关系数。由例11-1得,,由公式11-3得15114.7iix152114.81iix15n151224iiy15213368iiy151216.7iiixy22216.7(14.7)(224)/150.92614.81(14.7)/153368(224)/15相关系数的统计推断相关系数的假设检验直接查相关系数临界值表;t检验(11-5)(11-6)0rrrts212rrsn例11-3继例11-2中算得r=-0926后,试检验相关是否具有统计学意义检验步骤0H:0,1H:0,=0.05本例n=15,r=-0.926,由公式(11-4)和公式(11-5)得20.9268.8741(0.926)152rt13t0.001p0H1H本例,查界值表得,故拒绝接受,认为凝血酶浓度与凝血酶时间之间存在负相关。此结果与查表的结果是一致的。rh1tanz或)11ln(21rrz(11-7)zhrtan或1122ZZeer(11-8)线性相关中应注意的问题1.样本的相关系数接近零并不意味着两变量间一定无相关性.两个有联系的变量并非都属线性联系。两变量间无线性关系,但却存在非线性的曲线联系。例如,很高血压和很低血压的人死亡率均较高,而中等血压的人死亡率较低,于是,死亡率和血压之间有曲线性联系。还有如血液浓度与时间之间的关系、某放射性污染物对环境的污染浓度与污染源距离之间的关系等,都有曲线性联系,但它们的样本相关系数却都接近零。故通常应先绘出样本值的散点图,利用散点图可直观地判断两变量之间是否具有线性联系。2.一个变量的数值人为选定时莫作相关..一个变量的数值随机变动,另一个变量的数值却是人为选定的。例如,为研究药物的剂量-反应关系3.出现异常值时甚用相关.4.相关未必真有内在联系.•5.分层资料盲目合并易出假象第二节秩相关(rankcorrelation)等级相关适用条件:①资料不服从双变量正态分布而不宜作积差相关分析;②总体分布型未知,一端或两端是不确定数值(如<10岁,≥65岁)的资料;③原始数据用等级表示的资料。一、Spearman秩相关1.意义:等级相关系数rs用来说明两个变量间直线相关关系的密切程度与相关方向。2.计算公式d为p,q之差)1(6122nndrs3.确定P值---查表当50n£时,查附表14的rs界值表;当50n时,计算检验统计量u,查t界值表。•例11-4某地研究2~7岁急性白血病患儿的血小板数与出血症状程度之间的相关性,结果见表11-2,试用秩相关进行分析表11-2急性白血病患儿的血小板(109/L)和出血症状病人编号血小板数秩次p2出血症状秩次q2pqXpYq(1)(2)(3)(4)(5)(6)(7)(8)=(3).(6)112111+++11.5132.2511.5213824++9.08118316539+7.049214310416-3.512.25145426525++9.081456540636++9.081547740749-3.52.2524.581060864-3.512.252891260981-3.512.2531.510129010100-3.512.253511143811121+++11.5132.25126.2512200412144-3.512.2542合计—78650-78630451•利用表11-2中的数据容易算得秩相关系数为负,说明两变量间有负相关关系,同样由样本算得的秩相关系数是否有统计学意义,也应做检验143ppl123qql56pql560.422143123pqsppqqlrll二秩相关系数的统计推断•检验步骤假设检验统计推断当时,可查书后的临界值表,若秩相关系数超过临界值,则拒绝;当时,也可采用公式(11-5)或(11-6)式做检验1:0sH0:0,sH0.050H50nsr50nt例11-5对例1-4的秩相关系数作假设检验•例11-4中算得查临界值表,,按的水准,不能拒绝,可以认为急性白血病患儿的出血症状与血小板数之间无相关关系0.442srsr12,0.10.503srr0.050H第三节分类变量的关联性分析•适用条件对定性变量之间的联系通用的方法是根据两个定性变量交叉分类基数所得的频数资料(列联表)作关联性分析,即关于两种属性独立性的卡方检验计算公式22()ATT交叉分类2×2表的关联分析•例11-6为观察婴儿腹泻是否与喂养方式有关,某医院儿科随机收集了消化不良的婴儿82例,对每个个体分别观察腹泻与否和喂养方式两种属性,2×2种结果分类记述如表11-3所示,试分析两种属性的关联性。表11-3婴儿腹泻与喂养方式的关系喂养方式腹泻合计有无人工301040母乳172542合计473582•假设检验:喂养方式与婴儿腹泻之间相互独立:喂养方式与婴儿腹泻之间有关联将表中各数据代入公式(7-7)得,拒绝原假设,说明婴儿腹泻与喂养方式之间存在关联性.0H1H0.0529.98220.005,17.78,0.005p表11-3婴儿腹泻与喂养方式的关系喂养方式腹泻合计有无人工301040母乳172542合计473582两个分类变量关联的程度--Pearson列联系数(contingencycoefficient)nr22(11-9)本例,列联系数为329.08298.998.922nr列联系数介于0和1之间,理论上也应就总体列联系数是否等于0作假设检验,但这个检验等价于上述关于两种属性独立性的2检验。二2×2配对资料的关联性分析•例11-7有56份咽喉涂抹标本,把每份标本一分为二,依同样的条件分别接种于甲乙两种白喉杆菌培养基上,观察白喉菌生长的情况,结果如表11-5,问两种培养基的结果有无关联?表11-5两种白喉杆菌培养结果甲培养基乙培养基合计+-+221840-21416合计243256•假设检验:两种培养基的结果之间互相独立:两种培养基的结果之间有关联将本例数据代入公式(7-7)得有理由拒绝零假设,可以认为甲、乙两种培养基之间存在关联性0H1H0.0529.983.84,0.05p三R×C表分类资料的关联性分析•例11-8某地居民主要有三种祖籍,均流行甲状腺肿。为探索甲状腺肿类型与祖籍是否有关联,现根据居民甲状腺肿筛查结果,按甲状腺肿类型与祖籍两种属性交叉分类,得表11-6的资料。问甲状腺肿类型与祖籍见有否关联?表11-6某地居民按甲状腺肿类型与祖籍两种属性的交叉分类表祖籍甲状腺肿类型合计弥漫型结节型混合型甲48624492乙13326051444丙10031585500合计7195771401436•假设检验:甲状腺类型与祖籍无关:甲状腺类型与祖籍有关联同样作检验得由查界值表,,拒绝零假设,说明甲状腺肿类型与祖籍之间有关联性计算列联系数0H1H0.0529.98(31)(31)4,2220.005,418.55,0.005p22723.7830.579723.7831436rn
本文标题:两变量关联性分析
链接地址:https://www.777doc.com/doc-6345384 .html