您好,欢迎访问三七文档
当前位置:首页 > 商业/管理/HR > 经营企划 > 62两变量关联性分析
第十一章两变量关联性分析本章内容第一节线性相关第二节秩相关第三节分类变量的关联性分析第一节线性相关一线性相关的概念线性相关(linearcorrelation)又称简单相关(simplecorrelation),用于双变量正态分布(bivariatenormaldistribution)资料。其性质可由图11-2散点图直观的说明。•目的:研究两个变量X,Y数量上的依存(或相关)关系。•特点:统计关系二、相关系数的意义与计算1.意义:相关(correlationcoefficient)又称Pearson积差相关系数,用来说明具有直线关系的两变量间相关的密切程度与相关方向。以符号r表示样本相关系数,符号表示其总体相关系数。2.计算:样本相关系数的计算公式为22()()()()XYXXYYXXYYlrllXXYY(11-3)•例11-2计算例11-1中凝血酶浓度X与凝血酶时间Y之间样本相关系数。由例11-1得,,由公式11-3得15114.7iix152114.81iix15n151224iiy15213368iiy151216.7iiixy22216.7(14.7)(224)/150.92614.81(14.7)/153368(224)/15相关系数的特点1.相关系数r是一个无量纲的数值,且-1r1;2.r0为正相关,r0为负相关;3./r/越接近于1,说明相关性越好./r/越接近于0,说明相关性越差.相关系数的统计推断(一)相关系数的假设检验(11-5)(11-6)0rrrts212rrsn例11-3继例11-2中算得r=-0926后,试检验相关是否具有统计学意义检验步骤0H:0,1H:0,=0.05本例n=15,r=-0.926,由公式(11-4)和公式(11-5)得20.9268.8741(0.926)152rt13t0.001p0H1H本例,查界值表得,故拒绝接受,认为凝血酶浓度与凝血酶时间之间存在负相关。此结果与查表的结果是一致的。线性相关中应注意的问题•1.样本的相关系数接近零并不意味着两变量间一定无相关性.•2.一个变量的数值人为选定时莫作相关.•3.出现异常值时甚用相关.•4.相关未必真有内在联系.•5.分层资料盲目合并易出假象.第二节秩相关适用条件:①资料不服从双变量正态分布而不宜作积差相关分析;②总体分布型未知,一端或两端是不确定数值(如<10岁,≥65岁)的资料;③原始数据用等级表示的资料。一、Spearman秩相关1.意义:等级相关系数rs用来说明两个变量间直线相关关系的密切程度与相关方向。2.计算公式)1(6122nndrs3.确定P值---查表当50n£时,查附表14的rs界值表;当50n时,计算检验统计量u,查t界值表。•例11-4某地研究2~7岁急性白血病患儿的血小板数与出血症状程度之间的相关性,结果见表11-2,试用秩相关进行分析表11-2急性白血病患儿的血小板(109/L)和出血症状病人编号血小板数秩次p2出血症状秩次q2pqXpYq(1)(2)(3)(4)(5)(6)(7)(8)=(3).(6)112111+++11.5132.2511.5213824++9.08118316539+7.049214310416-3.512.25145426525++9.081456540636++9.081547740749-3.52.2524.581060864-3.512.252891260981-3.512.2531.510129010100-3.512.253511143811121+++11.5132.25126.2512200412144-3.512.2542合计—78650-78630451•利用表11-2中的数据容易算得秩相关系数为负,说明两变量间有负相关关系,同样由样本算得的秩相关系数是否有统计学意义,也应做检验143ppl123qql56pql560.422143123pqsppqqlrll二秩相关系数的统计推断•检验步骤假设检验统计推断当时,可查书后的临界值表,若秩相关系数超过临界值,则拒绝;当时,也可采用公式(11-5)或(11-6)式做检验1:0sH0:0,sH0.050H50nsr50nt例11-5对例1-4的秩相关系数作假设检验•例11-4中算得查临界值表,,按的水准,不能拒绝,可以认为急性白血病患儿的出血症状与血小板数之间无相关关系0.442srsr12,0.10.503srr0.050H第三节分类变量的关联性分析•适用条件对定性变量之间的联系通用的方法是根据两个定性变量交叉分类基数所得的频数资料(列联表)作关联性分析,即关于两种属性独立性的卡方检验计算公式22()ATT交叉分类2×2表的关联分析•例11-6为观察婴儿腹泻是否与喂养方式有关,某医院儿科随机收集了消化不良的婴儿82例,对每个个体分别观察腹泻与否和喂养方式两种属性,2×2种结果分类记述如表11-3所示,试分析两种属性的关联性。表11-3婴儿腹泻与喂养方式的关系喂养方式腹泻合计有无人工301040母乳172542合计473582•假设检验:喂养方式与婴儿腹泻之间相互独立:喂养方式与婴儿腹泻之间有关联将表中各数据代入公式(7-7)得,拒绝原假设,说明婴儿腹泻与喂养方式之间存在关联性.0H1H0.0529.98220.005,17.78,0.005p表11-3婴儿腹泻与喂养方式的关系喂养方式腹泻合计有无人工301040母乳172542合计473582二2×2配对资料的关联性分析•例11-7有56份咽喉涂抹标本,把每份标本一分为二,依同样的条件分别接种于甲乙两种白喉杆菌培养基上,观察白喉菌生长的情况,结果如表11-5,问两种培养基的结果有无关联?表11-5两种白喉杆菌培养结果甲培养基乙培养基合计+-+221840-21416合计243256•假设检验:两种培养基的结果之间互相独立:两种培养基的结果之间有关联将本例数据代入公式(7-7)得有理由拒绝零假设,可以认为甲、乙两种培养基之间存在关联性0H1H0.0529.983.84,0.05p三R×C表分类资料的关联性分析•例11-8某地居民主要有三种祖籍,均流行甲状腺肿。为探索甲状腺肿类型与祖籍是否有关联,现根据居民甲状腺肿筛查结果,按甲状腺肿类型与祖籍两种属性交叉分类,得表11-6的资料。问甲状腺肿类型与祖籍见有否关联?表11-6某地居民按甲状腺肿类型与祖籍两种属性的交叉分类表祖籍甲状腺肿类型合计弥漫型结节型混合型甲48624492乙13326051444丙10031585500合计7195771401436•假设检验:甲状腺类型与祖籍无关:甲状腺类型与祖籍有关联同样作检验得由查界值表,,拒绝零假设,说明甲状腺肿类型与祖籍之间有关联性计算列联系数0H1H0.0529.98(31)(31)4,2220.005,418.55,0.005p22723.7830.579723.7831436rn
本文标题:62两变量关联性分析
链接地址:https://www.777doc.com/doc-3696049 .html