您好,欢迎访问三七文档
当前位置:首页 > 商业/管理/HR > 经营企划 > 36第11章两变量关联性分析
2020/5/151引入:单变量:身高、体重、血压……两个随机变量:医学中,人的身高与体重、体温与脉搏次数、年龄与血压……2020/5/152第十一章两变量关联性分析2020/5/153本章内容第一节线性相关第二节秩相关第三节分类变量的关联性分析2020/5/154例11-1在某地一项膳食调查中,随机抽取了14名40~60岁的健康妇女,测得每人的基础代谢(kJ/d)与体重(kg)数据,判断这两项指标间有无关联?第一节线性相关2020/5/155表11-114名中年健康妇女的基础代谢与体重的测量值编号基础代谢(kJ/d)体重(kg)编号基础代谢(kJ/d)体重(kg)14175.650.783970.648.62443553.793986.244.633460.237.1105050.158.644020.851.7115355.57153987.447.8124560.659.764970.662.8134874.462.175359.767.3145029.261.52020/5/1560100020003000400050006000020406080体重(kg)基础代谢(KJ/的)系列1图11-114例中老年健康妇女基础代谢与体重的散点图2020/5/157线性相关(linearcorrelation)又称简单相关(simplecorrelation):两随机变量(双变量正态分布)X、Y之间呈线性趋势的关系。一、线性相关的概念及其统计描述随机变量:变量的取值在实验前或测量前是无法预先知道的。如“药物剂量”是人为事先选定的,不是“随机变量”,药物作用于机体产生的“反应”属于“随机变量”。2020/5/1582020/5/159二、相关系数的意义与计算线性相关系数(linearcorrelationcoefficient)又称Pearson积矩相关系数,用来说明具有直线关系的两变量间相关的密切程度与相关方向。以符号r表示样本相关系数,符号表示其总体相关系数。1.意义:2020/5/15102.计算:样本相关系数的计算公式为22()()()()XYXXYYXXYYlrllXXYY2222nYYnXXnYXXY2020/5/1511表11-114名中年健康妇女的基础代谢与体重的测量值编号基础代谢(kJ/d)体重(kg)编号基础代谢(kJ/d)体重(kg)14175.650.783970.648.62443553.793986.244.633460.237.1105050.158.644020.851.7115355.57153987.447.8124560.659.764970.662.8134874.462.175359.767.3145029.261.52020/5/1512例11-2计算例11-1中基础代谢Y与体重X之间样本相关系数。……2020/5/1513Correlations1.964**.0001414.964**1.0001414PearsonCorrelationSig.(2-tailed)NPearsonCorrelationSig.(2-tailed)N体重基础代谢体重基础代谢Correlationissignificantatthe0.01level(2-tailed).**.2020/5/1514(1)相关系数r是一个无量纲的数值,且-1<r<1(2)r0为正相关,r0为相关(3)越接近于1,说明相关密切程度越高,越接均与0,说明密切程度越低。r相关系数的特点:r2020/5/1515三、相关系数的统计推断2n例11-3继例11-2中算得r=0.964后,试检验相关是否具有统计学意义。0H:0,1H:0,=0.051.查表法如本例υ=12,r=0.964,…….2020/5/15162.t检验法0rrrts212rrsn本例,查t界值表得P0.001,故拒绝H0接受H1,认为凝血酶浓度与凝血酶时间之间存在负相关。此结果与查表的结果是一致的。12599.12214964.01964.02rt2020/5/1517相关系数的可信区间由于r呈非正态分布,故不能直接用r求可信区间,而是首先对r作Z转换,以消除这种偏态。2020/5/1518rZ1tanhrrZ11ln21式中为tanh为双曲正切函数,tanh-1为反双曲正切函数。方法:1.对r进行Z变换或2020/5/15193.求ρ的可信区间:对Z作反变换即可公式:1122zzee2.求Z的可信区间3/nZZztanh或2020/5/1520四、相关分析中应注意的问题1.首先绘制散点图。2.两变量都是随机变量,一个变量的数值人为选定时莫作相关,双正态分布资料。3.出现异常值时慎用相关。4.相关关系不一定是因果关系,可能仅是表面上的伴随关系。5.分层资料盲目合并易出假象。2020/5/1521适用条件:①资料不服从双变量正态分布而不宜作积差相关分析;②总体分布型未知,一端或两端是不确定数值(如<10岁,≥65岁)的资料;③原始数据用等级表示的资料。第二节秩相关2020/5/1522一、秩相关的概念及其统计描述1.意义:等级相关系数rs用来说明两个变量间直线相关关系的密切程度与相关方向。srs样本秩相关系数总体秩相关系数2020/5/1523例11-4某研究者观测了10例6个月-7岁的贫血患儿的血红蛋白与贫血体征,研究其相关性,试作秩相关分析。2020/5/1524表11-2贫血患儿的血红蛋白含量(g/dl)和贫血体征病人编号(1)血红蛋白含量(2)贫血体征Y(4)15+++25.8++36.1+47.3-58.8++69.1++711.1-812.3-913.5-1013.8-2020/5/1525表11-2贫血患儿的血红蛋白含量(g/dl)和贫血体征病人编号(1)血红蛋白含量(2)秩次p(3)贫血体征Y(4)秩次q(5)151+++10.025.82++8.036.13+6.047.34-3.058.85++8.069.16++8.0711.17-3.0812.38-3.0913.59-3.01013.810-3.0合计—55—552020/5/1526spearman等级相关的计算步骤nqppqlpq))(((1)套用积差相关系数计算公式qqpppqslllrnqqlqq22)(npplpp22)(2020/5/1527分别对X、Y编秩pi、qi求每对(X、Y)的秩次之差d,其中n为对子数求等级相关系数rs)1(6122nndrs(2)2020/5/1528当n≤50时,查表当n50时,t检验对进行假设检验:s0rrrts212rrsnr改为rs2020/5/1529秩相关系数的统计推断步骤:假设检验计算秩相关系数确定P值,做出统计推断1:0sH0:0,sH0.052020/5/1530定量变量:Pearson积矩相关系数、秩相关系数定性变量:根据两个定性变量的频数资料(列联表)作关联性分析(两种属性独立性的卡方检验),计算关联系数。22()ATT第三节分类变量的关联性分析计算公式2020/5/1531计算步骤1、根据资料选择适当的公式求值2、求列联系数(contingencycoefficient)nr2222020/5/1532一、交叉分类2×2表的关联分析例11-6研究吸烟方式与患慢性气管炎是否有关,某研究者随机调查了200例年龄相仿的吸烟者,对每个个体分别观察慢性气管炎与否和吸烟方式两种属性,分析两种属性的关联性。2020/5/1533表11-3吸烟习惯与患慢性气管炎的关系吸烟方式慢性气管炎有无合计自卷烟卷225375过滤嘴15110125合计371632002020/5/1534检验步骤::吸烟方式与慢性支气管炎之间互相独立:吸烟方式与慢性支气管炎之间有关联将表中各数据代入公式得,拒绝原假设,吸烟方式与慢性支气管炎之间存在关联性。341.920H1H0.0588.721,005.02005.0P211.0200341.9341.922nr2020/5/1535二、2×2配对资料的关联性分析例11-7有132份食品标本,把每份标本一分为二,分别用两种检验方法作沙门菌检验,结果如表11-5,问两种检验方法的结果有无关联?2020/5/1536表11-5两种检验方法的结果甲法乙法+-合计+801090-311142合计111211322020/5/1537检验步骤::两种检验方法的结果之间互相独立:两种检验方法的结果之间互相关联将本例数据代入公式得有理由拒绝零假设,可以认为甲、乙两种培养基之间存在关联性。0H1H0.0584.3867.4211114290132311011802205.0P2020/5/1538188.0132867.4867.422nr2020/5/1539例11-8欲探讨职业类型与胃病类型是否有关联,某医生将收治的310名胃病患者按主要的职业类型与胃病类型两种属相交叉分类,问职业类型与胃病类型间有无关联?三、R×C表分类资料的关联性分析2020/5/1540职业胃病浅表性胃炎慢性胃炎胃溃疡合计机关干部80484132工厂工人526212126公交车司机20221052合计15213226310表11-6310名胃病患者按胃病类型与职业两种属性的交叉分类表2020/5/1541检验步骤:胃病类型与职业无关联:胃病类型与职业有关联同样作检验得,拒绝零假设,说明胃病类型与职业之间有关联性。计算列联系数0H1H0.05(31)(31)4,86.1424,005.02005.0P838.202251.0310838.20838.2022nr2020/5/1542小结Pearson相关:概念、意义、计算、注意事项。Spearman相关:适用资料。分类变量的关联性分析:有无关联、关联系数的计算。
本文标题:36第11章两变量关联性分析
链接地址:https://www.777doc.com/doc-5372681 .html