您好,欢迎访问三七文档
当前位置:首页 > 商业/管理/HR > 经营企划 > 第十章两变量关联性分析详解
第十章两变量关联性分析本章内容第一节线性相关第二节秩相关第三节分类变量的关联性分析第一节线性相关一线性相关的概念线性相关(linearcorrelation)又称简单相关(simplecorrelation),用于双变量正态分布(bivariatenormaldistribution)资料。其性质可由图11-2散点图直观的说明。•目的:研究两个变量X,Y数量上的依存(或相关)关系。•特点:统计关系图10-1两变量散点图二、相关系数的意义与计算1.意义:相关(correlationcoefficient)又称Pearson积差相关系数,用来说明具有直线关系的两变量间相关的密切程度与相关方向。以符号r表示样本相关系数,符号表示其总体相关系数。2.计算:样本相关系数的计算公式为22()()()()XYXXYYXXYYlrllXXYY•例1例10-1在某地一项膳食调查中,随机抽取了14名40~60岁的健康妇女,测得每人40~60岁的健康妇女,测得每人的基础代谢(kj/d)与体重(kg)数据,见表10-1。据此数据如何判断这两项指标间有无关联?表10-114名健康妇女的基础代谢率与体重编号基础代谢(kJ/d)体重(kg)编号基础代谢(kJ/d)体重(kg)14175.650.783970.648.624435.053.793983.244.633460.237.1105050.158.644020.851.7115355.571.053987.447.8124560.659.764970.662.8134874.462.175359.767.3145029.261.5体重(KG)807060504030基础代谢(KJ/d)6000500040003000图10-214例中年健康妇女基础代谢与体重的散点图相关系数的特点1.相关系数r是一个无量纲的数值,且-1r1;2.r0为正相关,r0为负相关;3./r/越接近于1,说明相关性越好./r/越接近于0,说明相关性越差.964.00121.46454475771.11442329.703032329.70303,0121.4645447,577.1144110110rlllxyyyxx由原始出之间的样本相关系数中基础代谢率与体重- 计算例-例相关系数的统计推断(一)相关系数的假设检验0rrrts212rrsn例10-2继例10-2中算得r=0.964后,试检验相关是否具有统计学意义检验步骤0H:0,1H:0,=0.05本例n=14,r=0.964,计算t值12214,559.12214964.01964.02t.,,05.0,001.0,10体重间存在直线关系基础代谢与就可认为健康成年妇女接受水准拒绝按得界值表查HHPt10215(二)总体相关系数的可信区间由于相关系数的抽样分布在不等于零时呈偏态分布(大样本情况下亦如此),所以的可信区间需要先将其进行某种变量变换,使之服从正态分布,然后再估计其可信区间。10216具体步骤如下1.首先对r作如下z变换1tanhzr或1(1)ln2(1)rzr式中tanh为双曲正切函数,tanh-1为反双曲正切函数2.按下式根据正态近似原理计算z的1可信区间/2/2(3,3zunzun),缩写为/23zun3.对上一步计算出的z的上下限作如下变换,得到r的1可信区间tanh()rz或1122zzeer10217Z=1/2ln((1+r)/(1-r))=1/2ln((1+0.964)/(1-0.964))=1.9966按公式(10-21)z的95%可信区间为(1.9996-1.96/314,1.9996+1.96/314)=(1.4089,2.5906)例10-3对例10-1所得r值,估计总体相关系数的95%可信区间。再按公式(10-22)将z作反变换,得到基础代谢与体重的总体相关系数95%可信区间为(0.8872,0.9888)。线性相关中应注意的问题1.样本的相关系数接近零并不意味着两变量间一定无相关性.2.一个变量的数值人为选定时莫作相关.3.出现异常值时甚用相关.4.相关未必真有内在联系.5.分层资料盲目合并易出假象.6.线性相关分析双变量是随机且服从正态分布第二节秩相关适用条件:①资料不服从双变量正态分布而不宜作积差相关分析;②总体分布型未知,一端或两端是不确定数值(如<10岁,≥65岁)的资料;③原始数据用等级表示的资料。一、Spearman秩相关1.意义:等级相关系数rs用来说明两个变量间直线相关关系的密切程度与相关方向。2.计算公式)1(6122nndrs3.确定P值---查表当n<=50时,查附表14的rs界值表;当50n时,计算检验统计量u,查t界值表。•例10-5某地研究2~7岁贫血病患儿的血红蛋白含量与出血症状程度之间的相关性,结果见表10-2,试用秩相关进行分析表10-2贫血患儿的血红蛋白含量(g/l)和出血症状病人编号血小板数秩次p2出血症状秩次q2pqXpYq(1)(2)(3)(4)(5)(6)(7)(8)=(3).(6)15.011+++101001025.824++8643636.139+6361847.3416-391258.8525++8644069.1636++86448711.1749-3921812.3864-3924913.5981-39271013.810100-3930合计—55385-55373266•利用表10-2中的数据容易算得秩相关系数为负,说明两变量间有负相关关系,同样由样本算得的秩相关系数是否有统计学意义,也应做检验741.05.56,5.70,5.82qqpppqspqqqpplllrlll二秩相关系数的统计推断•检验步骤假设检验统计推断当时,可查书后的临界值表,若秩相关系数超过临界值,则拒绝;当时,也可采用公式(10-5)或(10-6)式做检验1:0sH0:0,sH0.050H50nsr50nt例10-5对例1-4的秩相关系数作假设检验•例10-4中算得查临界值表,,按的水准,拒绝,可以认为贫血病患儿的出血症状与血红蛋白量之间呈负相关关系0.050H741.0sr648.005.0,10rrs五、简单线性相关的样本量估算•简单线性相关的样本量估算公式为:311ln422ZZn例10-4根据以往调查,某地某年大学生女大学生的体重(kg)与肺活量(L)的线性相关系数0.7165,若想在α=0.05,β=0.90水平下得到相关系数有统计学意义的结论,至少应调查多少人?•据已知条件代入公式:1696.1537166.017166.01ln282.196.142n第三节分类变量的关联性分析交叉分类2×2表的关联分析•例10-7为观察大学生专业与艾滋病知晓程度之间是否有关,某研究者调查了某一年级不同专业的500名学生,对每个个体分别观察专业与艾滋病知晓程度两种属性,2×2种结果分类记述如表10-3所示,试分析两种属性的关联性。•适用条件对定性变量之间的联系通用的方法是根据两个定性变量交叉分类基数所得的频数资料(列联表)作关联性分析,即关于两种属性独立性的卡方检验计算公式22()ATT表10-3专业与艾滋病知晓程度之间的关系大学生专业艾滋病知晓程度合计高低医学预科3191121其它19359合计50450500•假设检验:大学生专业与与艾滋病知晓程度之间相互独立:大学生专业与与艾滋病知晓程度之间关联将表中各数据代入公式得拒绝原假设,说明大学生专业与与艾滋病知晓程度之间存在关联性.0H1H0.05005.0,88.758.42375122450505009119359312221,005.0p关于两分类变量之间的关联程度,可采用(phicoefficient)、GramerV系数、Gramer‘sVcoefficient)和Pearson列联系数(contingencycoefficient),三个系数愈近1说明关系愈密切,三个愈近0,说明两分类变量几乎没有关系。只适用于四格表资料,对于多行多列只能采用后两种.•本列2222),min(,1,nrpearsonCRkknVn列联系数292.050058.42二2×2配对资料的关联性分析例10-8有132食品标本,把每份标本一分为二,分别用两种检测方法作沙门菌检验,观察结果如表10-5,问两种检测方法的结果有无关联?表10-5两种检测方法结果甲法乙法合计+-+801090-311142合计11121132•假设检验:两种检测方法的结果之间互相独立:两种检测方法的结果之间有关联将本例数据代入公式得有理由拒绝零假设,可以认为甲、乙两种方法检测方法之间存在关联性,进一步计算0H1H0.053.84,0.05p867.42192.0132867.42n三R×C表分类资料的关联性分析例10-9欲探讨职业类型与胃癌,得表10-6的资料。问职业类型与胃癌是否关联?表10-6310胃病患者按胃病类型与职业两种属性的交叉分类表职业胃病合计浅表型慢性胃炎胃溃疡机关干部80484132工人526212126公交车司机20221052合计15213226310•假设检验:职业类型与胃病类型无关:职业类型与胃病类型有关联同样作检验得由查界值表,,拒绝零假设,说明职业类型与胃病类型之间有关联性计算列联系数0H1H0.05288.1424,001,02838.202251.0838.22310838.2222nr例10-10测得某地1043人的ABO血型和MN血型结果如表10-7,问两种血型系统之间是否有关联?表7-10某地1043人的血型ABO血型MN血型合计MNMNO85100150335A5678120254B98132170400AB2325654合计2623354461043(单样本,做关联性检验)检验步骤0H:两种血型系统间无关联1H:两种血型系统间有关联05.0925.221446546...3353351002623358510432222拒绝零假设,说明两种血型有关联性其关联强度为115.0131043925.2512knv
本文标题:第十章两变量关联性分析详解
链接地址:https://www.777doc.com/doc-1279200 .html